HyperAIHyperAI

Command Palette

Search for a command to run...

Glow-TTS: تدفق توليدي للصوت من النص عبر بحث التوافقيات التصاعدية

Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon

الملخص

في الآونة الأخيرة، تم اقتراح نماذج تحويل النص إلى كلام (TTS) مثل FastSpeech وParaNet لتوليد مصفوفات الميل-سبكتروغرام من النص بشكل متوازٍ. وعلى الرغم من الميزة التي تتمتع بها هذه النماذج المتوازية، إلا أنها لا يمكن تدريبها دون إرشاد من نماذج TTS التكرارية، وذلك بسبب الحاجة إلى مُحاَّل خارجي (aligner). في هذه الدراسة، نقترح نموذج Glow-TTS، وهو نموذج توليدي مبني على التدفق (flow-based) للـ TTS المتوازية، ولا يحتاج إلى أي مُحاَّل خارجي. من خلال دمج خصائص التدفق (flows) مع البرمجة الديناميكية (dynamic programming)، يقوم النموذج المُقترح بالبحث عن التوافيق التصاعدية الأرجح بين النص والتمثيل الخفي للكلام بشكل مستقل. ونُظهر أن فرض توازي توافيق تصاعدية صارمة (hard monotonic alignments) يُمكن من تحقيق TTS موثوق، قادر على التعميم على الجمل الطويلة، كما أن استخدام التدفقات التوليدية (generative flows) يُتيح توليد كلام سريع، متنوع، وقابل للتحكم. يحقق Glow-TTS تسريعًا بدرجة تصل إلى مرتبة عشرية مقارنة بنموذج TTS التكراري Tacotron 2 عند التوليد، مع جودة صوت مماثلة. بالإضافة إلى ذلك، نُظهر أن نموذجنا يمكن تمديده بسهولة إلى البيئة متعددة المتكلمين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp