HyperAIHyperAI

Command Palette

Search for a command to run...

فلوترون: شبكة توليدية تعتمد على التدفق التلقائي لتحويل النص إلى الكلام

Rafael Valle Kevin Shih Ryan Prenger Bryan Catanzaro

الملخص

في هذه الورقة، نقترح نموذج Flowtron: شبكة توليدية تعتمد على التدفق التلقائي (autoregressive flow-based) لتحويل النص إلى كلام، مع القدرة على التحكم في التغيرات الصوتية ونقل الأسلوب. يستمد Flowtron أفكاره من نموذج IAF ويُعدّل معمارية Tacotron لتوفير توليد لـ "مِل-سبكتروغرام" عالي الجودة وتعبيرية. يتم تحسين Flowtron من خلال تعظيم احتمالية بيانات التدريب، مما يجعل التدريب بسيطًا ومستقرًا. يتعلم Flowtron تحويلًا عكسيًا للبيانات إلى فضاء خفي (latent space) يمكن التلاعب به للتحكم في جوانب متعددة في توليد الكلام (مثل النغمة، الصوت، معدل الكلام، الإيقاع، والنطق). تُظهر نتائج التقييمات المتوسطة من قبل المستخدمين (MOS) أن Flowtron يوازي النماذج الحالية الأفضل في مجال تحويل النص إلى كلام من حيث جودة الصوت. علاوةً على ذلك، نقدّم نتائج حول التحكم في التغيرات الصوتية، والتداخل بين العينات، ونقل الأسلوب بين المتكلمين الذين شُوهدوا أو لم يُرَوَّا أثناء التدريب. سيتم إتاحة الكود والنماذج المُدرّبة مسبقًا للجمهور عبر الرابط: https://github.com/NVIDIA/flowtron


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فلوترون: شبكة توليدية تعتمد على التدفق التلقائي لتحويل النص إلى الكلام | مستندات | HyperAI