الإسقاط الصوتي التلقائي من خلال التدريب الدقيق لـ BART باستخدام علامات AudioSet

الوصف التلقائي للصوت هو مهمة متعددة الوسائط تُصف فيها تسجيلات الصوت البيئية بلغة طبيعية سلسة. تستخدم معظم الطرق الحالية نماذج تحليل مُدرّبة مسبقًا لاستخراج المحتوى الدلالي المتعلق من المدخلات الصوتية. ومع ذلك، فإن المعلومات السابقة المتعلقة بنمذجة اللغة نادراً ما تُدرج، وتعاني الهياكل المرتبطة من قدرة محدودة بسبب نقص البيانات. في هذا البحث، نقدم طريقة تعتمد على المعلومات اللغوية المحتواة في نموذج BART، وهو نموذج لغوي شرطي كبير الحجم تم تدريبه مسبقًا بغرض عام. يتم توليد الوصف بشرط سلسلة من العلامات النصية الخاصة بـ AudioSet. ويُعزَّز هذا المدخل بتمثيلات صوتية مُتماثلة زمنيًا، مما يمكّن النموذج من تحسين التعرف على الأحداث الصوتية. يتم تحسين دقة النموذج الكامل لـ BART باستخدام عدد قليل من المعاملات الإضافية. تُظهر النتائج التجريبية أن، بخلاف خصائص التوسع في البنية، فإن التدريب المسبق على اللغة فقط يُحسّن جودة النص في البيئة متعددة الوسائط الخاصة بالوصف الصوتي. ويحقق أفضل نموذج أداءً رائدًا في مجال AudioCaps بـ 46.5 نقطة SPIDEr.