HyperAIHyperAI

Command Palette

Search for a command to run...

Grad-TTS: نموذج احتمالي تمايزي للتحويل النصي إلى كلام

Vadim Popov Ivan Vovk Vladimir Gogoryan Tasnima Sadekova Mikhail Kudinov

الملخص

في الآونة الأخيرة، أظهرت نماذج التمايز التلقائي للإحتمالات التفاضلية وتقنيات التوافق التوليدية القائمة على التقدير (Generative Score Matching) إمكانات كبيرة في نمذجة توزيعات البيانات المعقدة، في حين قدمت الحساب العشوائي (Stochastic Calculus) منظورًا موحدًا لهذه التقنيات، مما يسمح بتصاميم مرنة للاستدلال. في هذه الورقة، نقدّم نموذج Grad-TTS، وهو نموذج جديد لتحويل النص إلى صوت (Text-to-Speech) يعتمد على معالج مبني على التقدير (Score-based Decoder)، ويُولّد طيف الميل (mel-spectrograms) من خلال تحويل تدريجي للضوضاء التي يتنبأ بها المُشفّر (Encoder)، مع محاذاة هذه الضوضاء مع المدخل النصي باستخدام خوارزمية البحث عن المحاذاة التصاعدية (Monotonic Alignment Search). يساعد إطار المعادلات التفاضلية العشوائية (Stochastic Differential Equations) في تعميم النماذج التفاضلية الاحتمالية التقليدية إلى الحالة التي يتم فيها إعادة بناء البيانات من الضوضاء ذات معلمات مختلفة، ويتيح أيضًا مرونة في هذه العملية من خلال التحكم الصريح في التوازن بين جودة الصوت وسرعة الاستدلال. أظهرت تقييمات بشرية موضوعية أن Grad-TTS يتنافس بشكل قوي مع أحدث النماذج في مجال تحويل النص إلى صوت من حيث متوسط درجة الرأي (Mean Opinion Score). وسوف نُطلق الكود المصدر للنموذج قريبًا للجمهور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp