منذ 8 أشهر

الملخص

الهدف من تسمية الصوت هو إنشاء وصف بلغة طبيعية لقطعة صوتية بشكل آلي. تتبع معظم نماذج التسمية معمارية المُشفر-المُفكك (الإنكودر-الديكودر)، حيث يقوم المُفكك بتوقع الكلمات بناءً على خصائص الصوت المستخرجة بواسطة المشفر. غالبًا ما يتم استخدام الشبكات العصبية التلافيفية (CNNs) والشبكات العصبية المتكررة (RNNs) كمشفر للصوت. ومع ذلك، يمكن أن تكون الشبكات العصبية التلافيفية محدودة في نمذجة العلاقات الزمنية بين الإطارات الزمنية في إشارة صوتية، بينما يمكن أن تكون الشبكات العصبية المتكررة محدودة في نمذجة الاعتمادات طويلة المدى بين الإطارات الزمنية. في هذا البحث، نقترح استخدام متغير تسمية الصوت (ACT)، وهو شبكة متغيرة كاملة تعتمد على معمارية المشفر-المُفكك ولا تحتوي على أي عمليات تلافيف. الطريقة المقترحة لديها قدرة أفضل على نمذجة المعلومات العالمية داخل إشارة صوتية وكذلك التقاط العلاقات الزمنية بين أحداث الصوت. قدمنا تقييمًا لنموذجنا على مجموعة بيانات AudioCaps، وهي أكبر مجموعة بيانات علنية متاحة للتسمية الصوتية. يظهر نموذجنا أداءً تنافسيًا مقارنة بالتقنيات الرائدة الأخرى في هذا المجال.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار