Command Palette
Search for a command to run...
IndexTTS2: طفرة في التحدث التلقائي من النص عاطفيًا وقابل للتحكم في المدة بدون تدريب مسبق وعادي
Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

الملخص
النماذج الحالية للتحدث بالنص ذات الحجم الكبير القائمة على التوليد التسلسلي (TTS) تمتلك مزايا في طبيعة الكلام الطبيعي، لكن آلية توليد الرموز على نحو تدريجي تجعل من الصعب التحكم بدقة في مدة الكلام المُولَّد. ويُعد هذا عائقًا كبيرًا في التطبيقات التي تتطلب تزامنًا صوتيًا بصريًا دقيقًا، مثل ترجمة الصوت للفيديوهات. تقدّم هذه الورقة نموذج IndexTTS2، الذي يقترح طريقة جديدة وعامة وملائمة للنماذج التسلسلية لتوليد الكلام، للتحكم بدقة في مدة الكلام. تدعم هذه الطريقة طريقتين للتجسيد: الأولى تحدد بشكل صريح عدد الرموز المولّدة، مما يتيح التحكم الدقيق في مدة الكلام؛ بينما الثانية تُولّد الكلام بشكل حر تسلسليًا دون تحديد عدد الرموز، مع الحفاظ بدقة على السمات الصوتية (الإيقاعية) للنص المُدخل. علاوةً على ذلك، يحقق IndexTTS2 فصلًا بين التعبير العاطفي وهوية المتكلم، ما يمكّن من التحكم المستقل في الصوت (النبرة) والعاطفة. وفي الإعداد الصفري (zero-shot)، يمكن للنموذج إعادة بناء النبرة المستهدفة بدقة (من نموذج النبرة) مع إعادة إنتاج مثالي للنبرة العاطفية المحددة (من نموذج الأسلوب). ولتحسين وضوح الكلام في التعبيرات العاطفية الشديدة، ندمج تمثيلات GPT اللاتينية (GPT latent representations) ونصمم نموذج تدريب ثلاثي المراحل جديدًا لتعزيز استقرار الكلام المُولَّد. وبالإضافة إلى ذلك، لخفض الحواجز أمام التحكم العاطفي، صممنا آلية تعليم لينة تعتمد على وصفات نصية من خلال تدريب مُعدّل لنموذج Qwen3، مما يُوجِّه بشكل فعّال توليد الكلام باتجاه عاطفي مطلوب. وأخيرًا، تُظهر النتائج التجريبية على عدة مجموعات بيانات أن IndexTTS2 يتفوّق على أحدث النماذج الحالية للتحدث بالنص بدون تدريب مسبق (zero-shot TTS) من حيث معدل أخطاء الكلمات (word error rate)، وتشابه المتكلم، ودقة التعبير العاطفي. يمكن الاستماع إلى عينات صوتية من النموذج من خلال الرابط التالي: this https URL
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.