Matcha-TTS: معمارية TTS سريعة مع مطابقة التدفق الشرطية

نقدم Matcha-TTS، وهي هندسة معمارية جديدة للشفرة-المفككة (encoder-decoder) لنمذجة الصوت النصي بسرعة، وقد تم تدريبها باستخدام تقنية التوفيق الشروطي الأمثل للنقل (OT-CFM). هذا ينتج فكّاً قائماً على المعادلات التفاضلية العادية (ODE) قادر على تحقيق جودة إخراج عالية في عدد أقل من خطوات التركيب مقارنة بالأنماط المدربة باستخدام تقنية التوافق النقاطي (score matching). كما أن الخيارات الهندسية الدقيقة تضمن أن كل خطوة تركيب تتم بسرعة. الطريقة احتمالية وغير ذاتية الارتباط، وتتعلم الكلام من الصفر دون الحاجة إلى توافق خارجي. عند مقارنتها بأنماط الأساس القوية المدربة مسبقًا، فإن نظام Matcha-TTS يتميز بأصغر حجم ذاكرة، ويتنافس مع أسرع الأنظمة في الجمل الطويلة، وحقق أعلى درجة رأي متوسطة في اختبار الاستماع. يرجى الرجوع إلى https://shivammehta25.github.io/Matcha-TTS/ للمزيد من أمثلة الصوت والكود وأنماط التعلم المسبقة.