HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل تسمية الصوت

Xinhao Mei Xubo Liu Qiushi Huang Mark D. Plumbley Wenwu Wang

الملخص

الهدف من تسمية الصوت هو إنشاء وصف بلغة طبيعية لقطعة صوتية بشكل آلي. تتبع معظم نماذج التسمية معمارية المُشفر-المُفكك (الإنكودر-الديكودر)، حيث يقوم المُفكك بتوقع الكلمات بناءً على خصائص الصوت المستخرجة بواسطة المشفر. غالبًا ما يتم استخدام الشبكات العصبية التلافيفية (CNNs) والشبكات العصبية المتكررة (RNNs) كمشفر للصوت. ومع ذلك، يمكن أن تكون الشبكات العصبية التلافيفية محدودة في نمذجة العلاقات الزمنية بين الإطارات الزمنية في إشارة صوتية، بينما يمكن أن تكون الشبكات العصبية المتكررة محدودة في نمذجة الاعتمادات طويلة المدى بين الإطارات الزمنية. في هذا البحث، نقترح استخدام متغير تسمية الصوت (ACT)، وهو شبكة متغيرة كاملة تعتمد على معمارية المشفر-المُفكك ولا تحتوي على أي عمليات تلافيف. الطريقة المقترحة لديها قدرة أفضل على نمذجة المعلومات العالمية داخل إشارة صوتية وكذلك التقاط العلاقات الزمنية بين أحداث الصوت. قدمنا تقييمًا لنموذجنا على مجموعة بيانات AudioCaps، وهي أكبر مجموعة بيانات علنية متاحة للتسمية الصوتية. يظهر نموذجنا أداءً تنافسيًا مقارنة بالتقنيات الرائدة الأخرى في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُحَوِّل تسمية الصوت | مستندات | HyperAI