التاريخ

منذ 8 أشهر

الوسوم

RTX 5090

Text-to-Audio

رابط الورقة البحثية

2506.21619

الترخيص

Apache 2.0

GitHub

index-tts/index-tts21.4k

1. مقدمة البرنامج التعليمي

IndexTTS-2 هو نموذج جديد لتحويل النص إلى كلام (TTS) مفتوح المصدر، أطلقه فريق Bilibili Voice في يونيو 2025. يحقق هذا النموذج إنجازاتٍ بارزة في التعبير عن المشاعر والتحكم في مدة الكلام، وهو أول نموذج TTS ذاتي الانحدار يدعم التحكم الدقيق في المدة. يدعم النموذج استنساخ الصوت بدون عينات، حيث يُعيد إنتاج النبرة والإيقاع وأسلوب الكلام بدقة من ملف صوتي واحد، كما يدعم لغات متعددة. يُطبّق IndexTTS-2 التحكم في فصل النبرة عن المشاعر، مما يسمح للمستخدمين بتحديد مصدر كلٍّ منهما بشكل مستقل. يتميز النموذج بإمكانيات إدخال المشاعر متعددة الوسائط، حيث يدعم التحكم في المشاعر من خلال الصوت المرجعي للمشاعر، أو نص وصف المشاعر، أو متجهات المشاعر. تتوفر أوراق بحثية ذات صلة. IndexTTS2: طفرة في تحويل النص إلى كلام تلقائيًا، معبرًا عاطفيًا ومتحكمًا بالمدة، مع خاصية الانحدار الذاتي، بدون لقطة .

يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد حوسبة.

2. عرض التأثير

نفس المرجع الصوتي

استخدم الصوت المرجعي العاطفي

استخدم متجهات العاطفة

استخدم وصف النص للتحكم في المشاعر

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

1. نفس المرجع الصوتي

المعلمات المحددة:

إعدادات المعلمات المتقدمة:
- do_sample: ما إذا كان سيتم إجراء أخذ العينات.
- درجة الحرارة: تتحكم في سلاسة توزيع الاحتمالات أثناء أخذ العينات.
- top_p: أخذ العينات من النواة.
- top_k: في كل خطوة من خطوات التوليد، يتم أخذ K رمز فقط في الاعتبار مع أعلى احتمال.
- num_beams: عرض بحث الشعاع.
- عقوبة التكرار: عقوبة التكرار، والتي تقلل من احتمالية قيام النموذج بإنشاء نفس الرمز بشكل متكرر.
- length_penalty: عقوبة طول، تُشجّع النموذج على توليد تسلسلات أطول أو أقصر، أو تُثبطه. يكون هذا فعالاً بشكل رئيسي عند استخدام num_beams > 1.
- max_mel_tokens: الحد الأقصى لعدد الرموز التي تم إنشاؤها.

2. استخدم إشارة صوتية عاطفية

3. استخدم متجهات العاطفة

معايير التحكم العاطفي:

سعيد، منزعج، غاضب، حزين، متفاجئ، خائف، هادئ: تتوافق هذه مع ثمانية أبعاد عاطفية أساسية. تشير قيمة كل مقياس (عادةً بين ٠٫٠ و١٫٠) إلى شدة العاطفة التي ترغب في انعكاسها في الخطاب الختامي.

4. استخدم وصف النص للتحكم في المشاعر

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}
@article{deng2025indextts,
  title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
  author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
  journal={arXiv preprint arXiv:2502.05512},
  year={2025},
  doi={10.48550/arXiv.2502.05512},
  url={https://arxiv.org/abs/2502.05512}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

نظرة عامة على Notebook

المستوى

مبتدئ

الموضوع

الصوت الذكاء الاصطناعي التوليدي

دفاتر ملاحظات ذات صلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

شغّل هذا الـNotebook ناقش على Discord