منذ 6 أشهر

الملخص

الوصف التلقائي للصوت هو مهمة متعددة الوسائط تُصف فيها تسجيلات الصوت البيئية بلغة طبيعية سلسة. تستخدم معظم الطرق الحالية نماذج تحليل مُدرّبة مسبقًا لاستخراج المحتوى الدلالي المتعلق من المدخلات الصوتية. ومع ذلك، فإن المعلومات السابقة المتعلقة بنمذجة اللغة نادراً ما تُدرج، وتعاني الهياكل المرتبطة من قدرة محدودة بسبب نقص البيانات. في هذا البحث، نقدم طريقة تعتمد على المعلومات اللغوية المحتواة في نموذج BART، وهو نموذج لغوي شرطي كبير الحجم تم تدريبه مسبقًا بغرض عام. يتم توليد الوصف بشرط سلسلة من العلامات النصية الخاصة بـ AudioSet. ويُعزَّز هذا المدخل بتمثيلات صوتية مُتماثلة زمنيًا، مما يمكّن النموذج من تحسين التعرف على الأحداث الصوتية. يتم تحسين دقة النموذج الكامل لـ BART باستخدام عدد قليل من المعاملات الإضافية. تُظهر النتائج التجريبية أن، بخلاف خصائص التوسع في البنية، فإن التدريب المسبق على اللغة فقط يُحسّن جودة النص في البيئة متعددة الوسائط الخاصة بالوصف الصوتي. ويحقق أفضل نموذج أداءً رائدًا في مجال AudioCaps بـ 46.5 نقطة SPIDEr.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Christophe Cerisara Romain Serizel F ́elix Gontier

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Christophe Cerisara Romain Serizel F ́elix Gontier

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Christophe Cerisara Romain Serizel F ́elix Gontier

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الإسقاط الصوتي التلقائي من خلال التدريب الدقيق لـ BART باستخدام علامات AudioSet

Christophe Cerisara Romain Serizel F ́elix Gontier

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الإسقاط الصوتي التلقائي من خلال التدريب الدقيق لـ BART باستخدام علامات AudioSet

Christophe Cerisara Romain Serizel F ́elix Gontier

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الإسقاط الصوتي التلقائي من خلال التدريب الدقيق لـ BART باستخدام علامات AudioSet

Christophe Cerisara Romain Serizel F ́elix Gontier

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters