منذ 8 أشهر

الملخص

في السنوات الأخيرة، شهدنا تقدماً ملحوظاً في تقنية تحويل النص إلى الصوت (Text-To-Audio - TTA)، مما مكّن المستخدمين من تحسين سير عملهم الإبداعي باستخدام الصوت المُولَد من تعليمات اللغة الطبيعية. ومع ذلك، فإن تأثير البيانات، هندسة النموذج، وظائف الأهداف التدريبية، واستراتيجيات العينة على المقاييس المستهدفة لم يتم فهمها بشكل جيد. بهدف توفير فهم شامل لمساحة تصميم نماذج TTA، أجرينا تجربة تجريبية على نطاق واسع ركزت على نماذج الانتشار ومطابقة التدفق.مساهماتنا تشمل:1) AF-اصطناعي، وهو مجموعة بيانات كبيرة تحتوي على عناوين اصطناعية عالية الجودة تم الحصول عليها من نموذج فهم الصوت؛2) مقارنة منهجية لخيارات تصميم مختلفة في هندسة النموذج والتدريب والاستدلال لنماذج TTA؛3) تحليل لطرق العينة ومنحنياتها البارتو بخصوص جودة التوليد وسرعة الاستدلال.نتعامل مع المعرفة التي حصلنا عليها من هذا التحليل الواسع لاقتراح أفضل نموذج لدينا والذي أطلقنا عليه اسم Elucidated Text-To-Audio (ETTA). عند تقييمه على مقاييس AudioCaps وMusicCaps، يوفر ETTA تحسينات على النماذج الأساسية التي تم تدريبها على البيانات المتاحة للجمهور، بينما يتنافس مع النماذج التي تم تدريبها على البيانات الحصرية. وأخيراً، نظهر قدرة ETTA المحسنة على إنتاج صوت إبداعي يتبع العناوين المعقدة والخيالية - وهي مهمة أكثر تحدياً من المقاييس الحالية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ETTA: توضيح مجال تصميم نماذج النص إلى الصوت

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ETTA: توضيح مجال تصميم نماذج النص إلى الصوت

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ETTA: توضيح مجال تصميم نماذج النص إلى الصوت

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters