Command Palette
Search for a command to run...
IndexTTS-2: اختراق الاختناقات في مدة TTS الانحدارية التلقائية والتحكم في العواطف
1. مقدمة البرنامج التعليمي

IndexTTS-2 هو نموذج جديد لتحويل النص إلى كلام (TTS)، مفتوح المصدر، أطلقه فريق Bilibili Voice في يونيو 2025. حقق هذا النموذج إنجازاتٍ كبيرة في مجال التعبير العاطفي والتحكم في مدته، وهو أول نموذج تحويل نص إلى كلام ذاتي الانحدار يدعم التحكم الدقيق في مدته. يدعم النموذج استنساخ الصوت بدون عينة، ويمكنه تكرار جرس الصوت والإيقاع وأسلوب الكلام بدقة باستخدام ملف صوتي واحد فقط، ويدعم لغات متعددة. يطبق IndexTTS-2 التحكم في فصل جرس الصوت العاطفي، ويمكن للمستخدمين تحديد مصدر جرس الصوت والعاطفة بشكل مستقل. يتميز النموذج بإمكانيات إدخال عاطفية متعددة الوسائط، ويدعم التحكم في العواطف من خلال الصوت المرجعي العاطفي، أو نص الوصف العاطفي، أو المتجهات العاطفية. نتائج البحث ذات الصلة هي:IndexTTS2: طفرة في تحويل النص إلى كلام تلقائيًا، معبرًا عاطفيًا ومتحكمًا بالمدة، مع خاصية الانحدار الذاتي، بدون لقطة".
موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.
2. عرض التأثير
نفس المرجع الصوتي

استخدم الصوت المرجعي العاطفي

استخدم متجهات العاطفة

استخدم وصف النص للتحكم في المشاعر

3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.
1. نفس المرجع الصوتي

المعلمات المحددة:
- إعدادات المعلمات المتقدمة:
- do_sample: ما إذا كان سيتم إجراء أخذ العينات.
- درجة الحرارة: تتحكم في سلاسة توزيع الاحتمالات أثناء أخذ العينات.
- top_p: أخذ العينات من النواة.
- top_k: في كل خطوة من خطوات التوليد، يتم أخذ K رمز فقط في الاعتبار مع أعلى احتمال.
- num_beams: عرض بحث الشعاع.
- عقوبة التكرار: عقوبة التكرار، والتي تقلل من احتمالية قيام النموذج بإنشاء نفس الرمز بشكل متكرر.
- length_penalty: عقوبة طول، تُشجّع النموذج على توليد تسلسلات أطول أو أقصر، أو تُثبطه. يكون هذا فعالاً بشكل رئيسي عند استخدام num_beams > 1.
- max_mel_tokens: الحد الأقصى لعدد الرموز التي تم إنشاؤها.
2. استخدم إشارة صوتية عاطفية

3. استخدم متجهات العاطفة

معايير التحكم العاطفي:
- سعيد، منزعج، غاضب، حزين، متفاجئ، خائف، هادئ: تتوافق هذه مع ثمانية أبعاد عاطفية أساسية. تشير قيمة كل مقياس (عادةً بين ٠٫٠ و١٫٠) إلى شدة العاطفة التي ترغب في انعكاسها في الخطاب الختامي.
4. استخدم وصف النص للتحكم في المشاعر

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{zhou2025indextts2,
title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
journal={arXiv preprint arXiv:2506.21619},
year={2025}
}
@article{deng2025indextts,
title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
journal={arXiv preprint arXiv:2502.05512},
year={2025},
doi={10.48550/arXiv.2502.05512},
url={https://arxiv.org/abs/2502.05512}
}بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.