HyperAIHyperAI

Command Palette

Search for a command to run...

IndexTTS-2: اختراق الاختناقات في مدة TTS الانحدارية التلقائية والتحكم في العواطف

Date

منذ 3 أشهر

Size

111.82 MB

License

Apache 2.0

Paper URL

2506.21619

1. مقدمة البرنامج التعليمي

يبني

IndexTTS-2 هو نموذج جديد لتحويل النص إلى كلام (TTS) مفتوح المصدر، أطلقه فريق Bilibili Voice في يونيو 2025. يحقق هذا النموذج إنجازاتٍ بارزة في التعبير عن المشاعر والتحكم في مدة الكلام، وهو أول نموذج TTS ذاتي الانحدار يدعم التحكم الدقيق في المدة. يدعم النموذج استنساخ الصوت بدون عينات، حيث يُعيد إنتاج النبرة والإيقاع وأسلوب الكلام بدقة من ملف صوتي واحد، كما يدعم لغات متعددة. يُطبّق IndexTTS-2 التحكم في فصل النبرة عن المشاعر، مما يسمح للمستخدمين بتحديد مصدر كلٍّ منهما بشكل مستقل. يتميز النموذج بإمكانيات إدخال المشاعر متعددة الوسائط، حيث يدعم التحكم في المشاعر من خلال الصوت المرجعي للمشاعر، أو نص وصف المشاعر، أو متجهات المشاعر. تتوفر أوراق بحثية ذات صلة. IndexTTS2: طفرة في تحويل النص إلى كلام تلقائيًا، معبرًا عاطفيًا ومتحكمًا بالمدة، مع خاصية الانحدار الذاتي، بدون لقطة .

يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد حوسبة.

2. عرض التأثير

نفس المرجع الصوتي

استخدم الصوت المرجعي العاطفي

استخدم متجهات العاطفة

استخدم وصف النص للتحكم في المشاعر

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

1. نفس المرجع الصوتي

المعلمات المحددة:

  • إعدادات المعلمات المتقدمة:
    • do_sample: ما إذا كان سيتم إجراء أخذ العينات.
    • درجة الحرارة: تتحكم في سلاسة توزيع الاحتمالات أثناء أخذ العينات.
    • top_p: أخذ العينات من النواة.
    • top_k: في كل خطوة من خطوات التوليد، يتم أخذ K رمز فقط في الاعتبار مع أعلى احتمال.
    • num_beams: عرض بحث الشعاع.
    • عقوبة التكرار: عقوبة التكرار، والتي تقلل من احتمالية قيام النموذج بإنشاء نفس الرمز بشكل متكرر.
    • length_penalty: عقوبة طول، تُشجّع النموذج على توليد تسلسلات أطول أو أقصر، أو تُثبطه. يكون هذا فعالاً بشكل رئيسي عند استخدام num_beams > 1.
    • max_mel_tokens: الحد الأقصى لعدد الرموز التي تم إنشاؤها.

2. استخدم إشارة صوتية عاطفية

3. استخدم متجهات العاطفة

معايير التحكم العاطفي:

  • سعيد، منزعج، غاضب، حزين، متفاجئ، خائف، هادئ: تتوافق هذه مع ثمانية أبعاد عاطفية أساسية. تشير قيمة كل مقياس (عادةً بين ٠٫٠ و١٫٠) إلى شدة العاطفة التي ترغب في انعكاسها في الخطاب الختامي.

4. استخدم وصف النص للتحكم في المشاعر

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}
@article{deng2025indextts,
  title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
  author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
  journal={arXiv preprint arXiv:2502.05512},
  year={2025},
  doi={10.48550/arXiv.2502.05512},
  url={https://arxiv.org/abs/2502.05512}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
IndexTTS-2: اختراق الاختناقات في مدة TTS الانحدارية التلقائية والتحكم في العواطف | Notebooks | HyperAI