HyperAIHyperAI

Command Palette

Search for a command to run...

ETTA: توضيح مجال تصميم نماذج النص إلى الصوت

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

الملخص

في السنوات الأخيرة، شهدنا تقدماً ملحوظاً في تقنية تحويل النص إلى الصوت (Text-To-Audio - TTA)، مما مكّن المستخدمين من تحسين سير عملهم الإبداعي باستخدام الصوت المُولَد من تعليمات اللغة الطبيعية. ومع ذلك، فإن تأثير البيانات، هندسة النموذج، وظائف الأهداف التدريبية، واستراتيجيات العينة على المقاييس المستهدفة لم يتم فهمها بشكل جيد. بهدف توفير فهم شامل لمساحة تصميم نماذج TTA، أجرينا تجربة تجريبية على نطاق واسع ركزت على نماذج الانتشار ومطابقة التدفق.مساهماتنا تشمل:1) AF-اصطناعي، وهو مجموعة بيانات كبيرة تحتوي على عناوين اصطناعية عالية الجودة تم الحصول عليها من نموذج فهم الصوت؛2) مقارنة منهجية لخيارات تصميم مختلفة في هندسة النموذج والتدريب والاستدلال لنماذج TTA؛3) تحليل لطرق العينة ومنحنياتها البارتو بخصوص جودة التوليد وسرعة الاستدلال.نتعامل مع المعرفة التي حصلنا عليها من هذا التحليل الواسع لاقتراح أفضل نموذج لدينا والذي أطلقنا عليه اسم Elucidated Text-To-Audio (ETTA). عند تقييمه على مقاييس AudioCaps وMusicCaps، يوفر ETTA تحسينات على النماذج الأساسية التي تم تدريبها على البيانات المتاحة للجمهور، بينما يتنافس مع النماذج التي تم تدريبها على البيانات الحصرية. وأخيراً، نظهر قدرة ETTA المحسنة على إنتاج صوت إبداعي يتبع العناوين المعقدة والخيالية - وهي مهمة أكثر تحدياً من المقاييس الحالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp