HyperAIHyperAI
منذ 11 أيام

Grad-TTS: نموذج احتمالي تمايزي للتحويل النصي إلى كلام

Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov
Grad-TTS: نموذج احتمالي تمايزي للتحويل النصي إلى كلام
الملخص

في الآونة الأخيرة، أظهرت نماذج التمايز التلقائي للإحتمالات التفاضلية وتقنيات التوافق التوليدية القائمة على التقدير (Generative Score Matching) إمكانات كبيرة في نمذجة توزيعات البيانات المعقدة، في حين قدمت الحساب العشوائي (Stochastic Calculus) منظورًا موحدًا لهذه التقنيات، مما يسمح بتصاميم مرنة للاستدلال. في هذه الورقة، نقدّم نموذج Grad-TTS، وهو نموذج جديد لتحويل النص إلى صوت (Text-to-Speech) يعتمد على معالج مبني على التقدير (Score-based Decoder)، ويُولّد طيف الميل (mel-spectrograms) من خلال تحويل تدريجي للضوضاء التي يتنبأ بها المُشفّر (Encoder)، مع محاذاة هذه الضوضاء مع المدخل النصي باستخدام خوارزمية البحث عن المحاذاة التصاعدية (Monotonic Alignment Search). يساعد إطار المعادلات التفاضلية العشوائية (Stochastic Differential Equations) في تعميم النماذج التفاضلية الاحتمالية التقليدية إلى الحالة التي يتم فيها إعادة بناء البيانات من الضوضاء ذات معلمات مختلفة، ويتيح أيضًا مرونة في هذه العملية من خلال التحكم الصريح في التوازن بين جودة الصوت وسرعة الاستدلال. أظهرت تقييمات بشرية موضوعية أن Grad-TTS يتنافس بشكل قوي مع أحدث النماذج في مجال تحويل النص إلى صوت من حيث متوسط درجة الرأي (Mean Opinion Score). وسوف نُطلق الكود المصدر للنموذج قريبًا للجمهور.

Grad-TTS: نموذج احتمالي تمايزي للتحويل النصي إلى كلام | أحدث الأوراق البحثية | HyperAI