HyperAIHyperAI
منذ 13 أيام

فلوترون: شبكة توليدية تعتمد على التدفق التلقائي لتحويل النص إلى الكلام

Rafael Valle, Kevin Shih, Ryan Prenger, Bryan Catanzaro
فلوترون: شبكة توليدية تعتمد على التدفق التلقائي لتحويل النص إلى الكلام
الملخص

في هذه الورقة، نقترح نموذج Flowtron: شبكة توليدية تعتمد على التدفق التلقائي (autoregressive flow-based) لتحويل النص إلى كلام، مع القدرة على التحكم في التغيرات الصوتية ونقل الأسلوب. يستمد Flowtron أفكاره من نموذج IAF ويُعدّل معمارية Tacotron لتوفير توليد لـ "مِل-سبكتروغرام" عالي الجودة وتعبيرية. يتم تحسين Flowtron من خلال تعظيم احتمالية بيانات التدريب، مما يجعل التدريب بسيطًا ومستقرًا. يتعلم Flowtron تحويلًا عكسيًا للبيانات إلى فضاء خفي (latent space) يمكن التلاعب به للتحكم في جوانب متعددة في توليد الكلام (مثل النغمة، الصوت، معدل الكلام، الإيقاع، والنطق). تُظهر نتائج التقييمات المتوسطة من قبل المستخدمين (MOS) أن Flowtron يوازي النماذج الحالية الأفضل في مجال تحويل النص إلى كلام من حيث جودة الصوت. علاوةً على ذلك، نقدّم نتائج حول التحكم في التغيرات الصوتية، والتداخل بين العينات، ونقل الأسلوب بين المتكلمين الذين شُوهدوا أو لم يُرَوَّا أثناء التدريب. سيتم إتاحة الكود والنماذج المُدرّبة مسبقًا للجمهور عبر الرابط: https://github.com/NVIDIA/flowtron

فلوترون: شبكة توليدية تعتمد على التدفق التلقائي لتحويل النص إلى الكلام | أحدث الأوراق البحثية | HyperAI