HyperAIHyperAI
منذ 2 أشهر

مُحَوِّل تسمية الصوت

Mei, Xinhao ; Liu, Xubo ; Huang, Qiushi ; Plumbley, Mark D. ; Wang, Wenwu
مُحَوِّل تسمية الصوت
الملخص

الهدف من تسمية الصوت هو إنشاء وصف بلغة طبيعية لقطعة صوتية بشكل آلي. تتبع معظم نماذج التسمية معمارية المُشفر-المُفكك (الإنكودر-الديكودر)، حيث يقوم المُفكك بتوقع الكلمات بناءً على خصائص الصوت المستخرجة بواسطة المشفر. غالبًا ما يتم استخدام الشبكات العصبية التلافيفية (CNNs) والشبكات العصبية المتكررة (RNNs) كمشفر للصوت. ومع ذلك، يمكن أن تكون الشبكات العصبية التلافيفية محدودة في نمذجة العلاقات الزمنية بين الإطارات الزمنية في إشارة صوتية، بينما يمكن أن تكون الشبكات العصبية المتكررة محدودة في نمذجة الاعتمادات طويلة المدى بين الإطارات الزمنية. في هذا البحث، نقترح استخدام متغير تسمية الصوت (ACT)، وهو شبكة متغيرة كاملة تعتمد على معمارية المشفر-المُفكك ولا تحتوي على أي عمليات تلافيف. الطريقة المقترحة لديها قدرة أفضل على نمذجة المعلومات العالمية داخل إشارة صوتية وكذلك التقاط العلاقات الزمنية بين أحداث الصوت. قدمنا تقييمًا لنموذجنا على مجموعة بيانات AudioCaps، وهي أكبر مجموعة بيانات علنية متاحة للتسمية الصوتية. يظهر نموذجنا أداءً تنافسيًا مقارنة بالتقنيات الرائدة الأخرى في هذا المجال.