HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عمل متعدد المهام مُشغّل بالصوت باستخدام التعلّم ذاتي التحفيز

Shehzeen Hussain Van Nguyen Shuhua Zhang Erik Visser

الملخص

أظهرت أساليب التعلم الذاتي مثل wav2vec 2.0 نتائج واعدة في تعلّم تمثيلات الكلام من بيانات كلام غير مُسَمّاة وغير مُدوّنة، والتي تُعد مفيدة لتقنيات التعرف على الكلام. وبما أن هذه التمثيلات تُتعلم دون أي إشراف مخصص للمهمة، فإنها يمكن أن تكون مفيدة أيضًا لمهام أخرى مُشغّلة بالصوت مثل التحقق من الهوية الصوتية، وتحديد الكلمات المفتاحية، وتصنيف المشاعر، إلخ. في عملنا، نقترح إطارًا عامًا لتعديل نموذج wav2vec 2.0 المُدرّب مسبقًا لاستخدامه في مهام صوتية متنوعة. ونقوم بتطوير هياكل شبكات تابعة تعمل على التمثيلات السياقية للكلام التي يُنتجها wav2vec 2.0، بهدف تكييف هذه التمثيلات لحل مهمة معينة. وأخيرًا، نوسع إطارنا لتنفيذ التعلّم متعدد المهام من خلال تحسين معلمات الشبكة بشكل مشترك على عدة مهام مُشغّلة بالصوت باستخدام هيكل أساسي مُشترك من نوع Transformer. وتحقق كل من أطرنا الفردية والمتعددة المهام نتائج متميزة على معايير التحقق من الهوية الصوتية وتحديد الكلمات المفتاحية. وتُظهر أفضل النماذج التي نقترحها معدل خطأ خاطئ (EER) بلغ 1.98% و3.15% على مجموعة بيانات VoxCeleb1 عند التدريب على VoxCeleb2 وVoxCeleb1 على التوالي، كما تُحقق دقة بلغت 98.23% على مجموعة بيانات Google Speech Commands v1.0 لتحديد الكلمات المفتاحية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp