HyperAIHyperAI

Command Palette

Search for a command to run...

BEATs: التدريب المسبق للصوت باستخدام مُحَوِّلات الصوت

Sanyuan Chen Yu Wu Chengyi Wang Shujie Liu Daniel Tompkins Zhuo Chen Furu Wei

الملخص

شهدت السنوات الأخيرة نموًا هائلاً في التعلم ذاتي التوجيه (SSL) في مجالات اللغة، الرؤية، الكلام، والصوت. في حين أن التنبؤ بالعلامات المنفصلة يُستخدم على نطاق واسع في الوسائط الأخرى، تستمر النماذج الحالية الأفضل في مجال صوت SSL في استخدام خسارة إعادة البناء خلال التدريب المسبق. مقارنةً بخسارة إعادة البناء، فإن التنبؤ بالعلامات المنفصلة الغنية بالمعنى يشجع نموذج SSL على استخلاص المعاني الصوتية عالية المستوى والتخلص من التفاصيل الزائدة، تمامًا كما يحدث في الإدراك البشري. ومع ذلك، فإن الحصول على مُفكّك صوتي غني بالمعنى لتدريب صوتي عام غالبًا ما يكون غير مباشر، نظرًا للطبيعة المستمرة للصوت، وعدم توفر تسلسلات أصواتية (فونيمات) كتلك الموجودة في الكلام. لمعالجة هذه التحديات، نقترح BEATs، وهي إطار تدريب مسبق صوتي تكراري لتعلم تمثيلات المُشفّر الثنائي من نماذج المحولات الصوتية (Audio Transformers)، حيث يتم تحسين مُفكّك صوتي ونموذج SSL الصوتي بالتناوب عبر تكرارات متعددة. في التكرار الأول، نستخدم التصوير العشوائي كمُفكّك صوتي لتدريب نموذج SSL الصوتي بطريقة التنبؤ بالعلامات مع تغطية (Mask and Label Prediction). ثم نُدرّب مُفكّك صوتي للدورة التالية من خلال استخلاص المعرفة المعجمية من نموذج SSL الصوتي المُدرّب مسبقًا أو المُعدّل دقيقًا. ويُعاد التكرار مع التطلع إلى تعزيز متبادل بين المُفكّك الصوتي ونموذج SSL الصوتي. أظهرت النتائج التجريبية أن مُفكّكاتنا الصوتية قادرة على إنتاج علامات منفصلة غنية بالمعنى الصوتي، وأن نماذجنا SSL الصوتية حققت نتائج قياسية على مجموعة متنوعة من معايير تصنيف الصوت، حتى تفوقت بشكل كبير على النماذج السابقة التي استخدمت كميات أكبر من البيانات وعددًا أكبر من المعلمات. وبشكل خاص، حققنا أفضل نتيجة مُحققة حتى الآن بـ 50.6% في مؤشر mAP على بيانات AudioSet-2M لنماذج الصوت فقط دون استخدام أي بيانات خارجية، ودقة بلغت 98.1% على مجموعة ESC-50. يمكن الوصول إلى الشفرة والنماذج المُدرّبة مسبقًا من خلال الرابط: https://aka.ms/beats.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp