HyperAIHyperAI

Command Palette

Search for a command to run...

EAT: التدريب المسبق ذاتيًا باستخدام محول الصوت الفعال

Wenxi Chen Yuzhe Liang Ziyang Ma Zhisheng Zheng Xie Chen *

الملخص

التعلم الذاتي غير المشرف (SSL) للصوت، والذي يهدف إلى تعلم تمثيلات جيدة من الصوت غير المصنف، قد حقق تقدماً ملحوظاً. ومع ذلك، فإن الطلب الحاسوبي الواسع خلال مرحلة التدريب الأولي يشكل عائقاً كبيراً أمام التطبيقات المحتملة وتحسين نماذج التعلم الذاتي غير المشرف للصوت. في هذا البحث، مستوحين من نجاح data2vec 2.0 في مجال الصور و Audio-MAE في مجال الصوت، نقدم محول الصوت الفعال (EAT) لتحسين فعالية وكفاءة التعلم الذاتي غير المشرف للصوت بشكل أكبر. يعتمد EAT المقترح على نموذج التدريب الذاتي غير المشرف المعاد تحميله في مجال الصوت. تم تصميم هدف جديد يُعرف بـ "هدف الجملة-الإطار" (UFO) لتعزيز قدرة النمذجة للأحداث الصوتية. بالإضافة إلى ذلك، نكشف أن استراتيجية التعتيم تكون حاسمة في التدريب الأولي للتعلم الذاتي غير المشرف للصوت، ويمكن الحصول على تمثيلات صوتية أفضل باستخدام أقنعة كتل معكوسة كبيرة. تظهر نتائج التجارب أن EAT يحقق أداءً رائداً (SOTA) في مجموعة متنوعة من المهام المتعلقة بالصوت، بما في ذلك AudioSet (AS-2M, AS-20K)، ESC-50، و SPC-2، مع زيادة سرعة التدريب الأولي تصل إلى حوالي 15 مرة مقارنة بنماذج التعلم الذاتي غير المشرف للصوت الموجودة حالياً.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp