HyperAIHyperAI
منذ 2 أشهر

ETTA: توضيح مجال تصميم نماذج النص إلى الصوت

Lee, Sang-gil ; Kong, Zhifeng ; Goel, Arushi ; Kim, Sungwon ; Valle, Rafael ; Catanzaro, Bryan
ETTA: توضيح مجال تصميم نماذج النص إلى الصوت
الملخص

في السنوات الأخيرة، شهدنا تقدماً ملحوظاً في تقنية تحويل النص إلى الصوت (Text-To-Audio - TTA)، مما مكّن المستخدمين من تحسين سير عملهم الإبداعي باستخدام الصوت المُولَد من تعليمات اللغة الطبيعية. ومع ذلك، فإن تأثير البيانات، هندسة النموذج، وظائف الأهداف التدريبية، واستراتيجيات العينة على المقاييس المستهدفة لم يتم فهمها بشكل جيد. بهدف توفير فهم شامل لمساحة تصميم نماذج TTA، أجرينا تجربة تجريبية على نطاق واسع ركزت على نماذج الانتشار ومطابقة التدفق.مساهماتنا تشمل:1) AF-اصطناعي، وهو مجموعة بيانات كبيرة تحتوي على عناوين اصطناعية عالية الجودة تم الحصول عليها من نموذج فهم الصوت؛2) مقارنة منهجية لخيارات تصميم مختلفة في هندسة النموذج والتدريب والاستدلال لنماذج TTA؛3) تحليل لطرق العينة ومنحنياتها البارتو بخصوص جودة التوليد وسرعة الاستدلال.نتعامل مع المعرفة التي حصلنا عليها من هذا التحليل الواسع لاقتراح أفضل نموذج لدينا والذي أطلقنا عليه اسم Elucidated Text-To-Audio (ETTA). عند تقييمه على مقاييس AudioCaps وMusicCaps، يوفر ETTA تحسينات على النماذج الأساسية التي تم تدريبها على البيانات المتاحة للجمهور، بينما يتنافس مع النماذج التي تم تدريبها على البيانات الحصرية. وأخيراً، نظهر قدرة ETTA المحسنة على إنتاج صوت إبداعي يتبع العناوين المعقدة والخيالية - وهي مهمة أكثر تحدياً من المقاييس الحالية.

ETTA: توضيح مجال تصميم نماذج النص إلى الصوت | أحدث الأوراق البحثية | HyperAI