HyperAIHyperAI

Command Palette

Search for a command to run...

الإسقاط الصوتي التلقائي من خلال التدريب الدقيق لـ BART باستخدام علامات AudioSet

Christophe Cerisara Romain Serizel F ́elix Gontier

الملخص

الوصف التلقائي للصوت هو مهمة متعددة الوسائط تُصف فيها تسجيلات الصوت البيئية بلغة طبيعية سلسة. تستخدم معظم الطرق الحالية نماذج تحليل مُدرّبة مسبقًا لاستخراج المحتوى الدلالي المتعلق من المدخلات الصوتية. ومع ذلك، فإن المعلومات السابقة المتعلقة بنمذجة اللغة نادراً ما تُدرج، وتعاني الهياكل المرتبطة من قدرة محدودة بسبب نقص البيانات. في هذا البحث، نقدم طريقة تعتمد على المعلومات اللغوية المحتواة في نموذج BART، وهو نموذج لغوي شرطي كبير الحجم تم تدريبه مسبقًا بغرض عام. يتم توليد الوصف بشرط سلسلة من العلامات النصية الخاصة بـ AudioSet. ويُعزَّز هذا المدخل بتمثيلات صوتية مُتماثلة زمنيًا، مما يمكّن النموذج من تحسين التعرف على الأحداث الصوتية. يتم تحسين دقة النموذج الكامل لـ BART باستخدام عدد قليل من المعاملات الإضافية. تُظهر النتائج التجريبية أن، بخلاف خصائص التوسع في البنية، فإن التدريب المسبق على اللغة فقط يُحسّن جودة النص في البيئة متعددة الوسائط الخاصة بالوصف الصوتي. ويحقق أفضل نموذج أداءً رائدًا في مجال AudioCaps بـ 46.5 نقطة SPIDEr.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp