HyperAIHyperAI
منذ 16 أيام

Glow-TTS: تدفق توليدي للصوت من النص عبر بحث التوافقيات التصاعدية

Jaehyeon Kim, Sungwon Kim, Jungil Kong, Sungroh Yoon
Glow-TTS: تدفق توليدي للصوت من النص عبر بحث التوافقيات التصاعدية
الملخص

في الآونة الأخيرة، تم اقتراح نماذج تحويل النص إلى كلام (TTS) مثل FastSpeech وParaNet لتوليد مصفوفات الميل-سبكتروغرام من النص بشكل متوازٍ. وعلى الرغم من الميزة التي تتمتع بها هذه النماذج المتوازية، إلا أنها لا يمكن تدريبها دون إرشاد من نماذج TTS التكرارية، وذلك بسبب الحاجة إلى مُحاَّل خارجي (aligner). في هذه الدراسة، نقترح نموذج Glow-TTS، وهو نموذج توليدي مبني على التدفق (flow-based) للـ TTS المتوازية، ولا يحتاج إلى أي مُحاَّل خارجي. من خلال دمج خصائص التدفق (flows) مع البرمجة الديناميكية (dynamic programming)، يقوم النموذج المُقترح بالبحث عن التوافيق التصاعدية الأرجح بين النص والتمثيل الخفي للكلام بشكل مستقل. ونُظهر أن فرض توازي توافيق تصاعدية صارمة (hard monotonic alignments) يُمكن من تحقيق TTS موثوق، قادر على التعميم على الجمل الطويلة، كما أن استخدام التدفقات التوليدية (generative flows) يُتيح توليد كلام سريع، متنوع، وقابل للتحكم. يحقق Glow-TTS تسريعًا بدرجة تصل إلى مرتبة عشرية مقارنة بنموذج TTS التكراري Tacotron 2 عند التوليد، مع جودة صوت مماثلة. بالإضافة إلى ذلك، نُظهر أن نموذجنا يمكن تمديده بسهولة إلى البيئة متعددة المتكلمين.

Glow-TTS: تدفق توليدي للصوت من النص عبر بحث التوافقيات التصاعدية | أحدث الأوراق البحثية | HyperAI