HyperAI

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

F5-TTS: استنساخ الصوت، حوار بين شخصين، خلط نغمات متعددة

مقدمة البرنامج التعليمي

该教程仅需 RTX 4090 即可启动。

يتضمن هذا البرنامج التعليمي نموذجين للاستخدام التجريبي، وهما F5-TTS وE2 TTS.

F5-TTS هو نظام تحويل النص إلى كلام (TTS) عالي الأداء تم إطلاقه بشكل مشترك من قبل جامعة شنغهاي جياو تونغ وجامعة كامبريدج ومعهد أبحاث السيارات جيلي (نينغبو) المحدودة في عام 2024. ويعتمد على طريقة توليد غير انحدارية تعتمد على مطابقة التدفق، جنبًا إلى جنب مع تقنية محول الانتشار (DiT). نتائج الورقة ذات الصلة هيF5-TTS: حكايتي الخيالية التي تتظاهر بالكلام السلس والصادق باستخدام مطابقة التدفقيستطيع هذا النظام توليد كلام طبيعي وسلسل ودقيق للنص الأصلي بسرعة من خلال التعلم التلقائي دون إشراف إضافي. يدعم F5-TTS توليفًا متعدد اللغات، بما في ذلك الصينية والإنجليزية، ويمكنه إجراء توليف كلامي فعال للنصوص الطويلة. بالإضافة إلى ذلك، يتميز F5-TTS بوظيفة للتحكم في المشاعر تُمكّن من تعديل التعبير العاطفي للكلام المُركّب وفقًا لمحتوى النص، ويدعم التحكم في السرعة، مما يسمح للمستخدمين بتعديل سرعة تشغيل الكلام حسب الحاجة. تم تدريب النظام على مجموعة بيانات واسعة النطاق تمتد لـ 100,000 ساعة، وأظهر أداءً وقدرات تعميم ممتازة. تشمل الميزات الرئيسية لـ F5-TTS استنساخ الصوت بدون عينة، والتحكم في السرعة، والتحكم في التعبير العاطفي، وتوليف النصوص الطويلة، ودعم لغات متعددة. تتضمن مبادئه التقنية مطابقة التدفق، ومحول الانتشار (DiT)، وتحسين تمثيل النص ConvNeXt V2، واستراتيجية أخذ العينات Sway، وتصميم النظام الشامل. يتمتع F5-TTS بمجموعة واسعة من سيناريوهات التطبيق، بما في ذلك الكتب الصوتية، والمساعدين الصوتيين، وتعلم اللغة، وبث الأخبار، ودبلجة الألعاب، وما إلى ذلك، مما يوفر قدرات قوية لتوليف الكلام لأغراض تجارية وغير تجارية مختلفة.

E2 TTS، وهو اختصار لـ Embarrassingly Easy Text-to-Speech، هو نظام متقدم لتحويل النص إلى كلام (TTS) يحقق الطبيعية على مستوى الإنسان وتشابه المتحدث من خلال عملية مبسطة. يكمن جوهر E2 TTS في طبيعته غير الانحدارية تمامًا، مما يعني أنه يمكنه إنشاء تسلسل الكلام بالكامل مرة واحدة دون الحاجة إلى إنشاء خطوة بخطوة، مما يزيد بشكل كبير من سرعة التوليد مع الحفاظ على جودة إخراج الكلام. نتائج الورقة ذات الصلة هيE2 TTS: TTS سهل بشكل محرج وغير تلقائي بالكامل وغير قابل للتراجعتم قبول "،" من قِبل SLT 2024. في إطار عمل E2 TTS، يُحوّل إدخال النص إلى سلسلة من الأحرف مع رموز الحشو. ثم يُدرّب مُولّد مخطط طيفي ميل قائم على مطابقة التدفق لمهمة ملء الصوت. بخلاف العديد من الأعمال السابقة، لا يتطلب هذا النظام مكونات إضافية (مثل نماذج المدة، وترجمة الحروف إلى الفونيمات) أو تقنيات معقدة (مثل البحث عن محاذاة رتيبة). على الرغم من بساطته، يُحقق E2 TTS إمكانيات تحويل نص إلى كلام (TTS) متطورة، تُضاهي أو تتجاوز الأعمال السابقة، بما في ذلك Voicebox وNaturalSpeech 3. كما تتيح بساطة E2 TTS مرونة في تمثيل المدخلات.

该教程支持如下模型和功能:

2 个模型检查点:
- F5-TTS
- E2 TTS

3 个功能:
- 单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
- 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
- 多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

خطوات التشغيل

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

1. تحويل النص إلى كلام مجمع

حدد وظيفة TTS، ثم قم بتحميل المطالبات الصوتية والنصية حسب الحاجة، ثم قم بتعيين المعلمات المتقدمة حسب الحاجة.

  • صوتي:قم بتحميل مقطع صوتي واضح وعالي الجودة لشخص يتحدث، وسوف يقوم النموذج بتقليد المقطع الصوتي للتوليد.
  • كلمة نصية موجهة:النص المراد توليده.

المعلمات المتقدمة

  • نص مرجعي:اتركه فارغًا ليتم نسخ الصوت المرجعي تلقائيًا. إذا قمت بإدخال نص، فسيتم إلغاء النسخ التلقائي.
  • إزالة الصمت:يميل هذا النموذج إلى إنتاج الصمت، وخاصة في الصوت الأطول. يمكننا إزالة الصمت يدويًا إذا لزم الأمر. يرجى ملاحظة أن هذه ميزة تجريبية وقد تؤدي إلى نتائج غريبة. سيؤدي هذا أيضًا إلى زيادة وقت البناء.
  • كلمات مقسمة مخصصة:أدخل الكلمات المخصصة التي تريد تقسيمها، مفصولة بفاصلات. اتركه فارغًا لاستخدام القائمة الافتراضية.
  • سرعة:التحكم في سرعة الكلام الناتج

كما هو موضح في الشكل أدناه

2. إنشاء البودكاست

يختار إنشاء البودكاست الوظيفة، قم بتحميل مطالبات صوتية ونصوص متعددة الأشخاص كما هو مطلوب أدناه. تستخدم هذه الوظيفة النموذج لمحاكاة المحادثة بين شخصين، وتتطلب أسماء وصوت شخصين.

  • صوتي:قم بتحميل مقطعين صوتيين واضحين وعالي الجودة بشكل منفصل، وسوف يقوم النموذج بتقليد الصوت لتوليده.
  • نص مرجعي:يتم تعيينه افتراضيًا على فارغ لنسخ الصوت المرجعي تلقائيًا. إذا قمت بإدخال نص، فسيتم إلغاء النسخ التلقائي.
  • اختر النموذج:الإفتراضي هو F5-TTS

كما هو موضح في الشكل أدناه

3. توليد أنواع متعددة من الكلام

حدد وظيفة إنشاء أنواع متعددة من الكلام وقم بتحميل مطالبات صوتية ونصية لمشاعر مختلفة كما هو مطلوب أدناه. تستخدم هذه الوظيفة النموذج لمحاكاة المشاعر وتوليد الصوت وفقًا للمشاعر المختلفة.

  • صوتي:قم بتحميل مقاطع صوتية متعددة واضحة وعالية الجودة تحتوي على مشاعر مختلفة، وسوف يقوم النموذج بتقليد الصوت لتوليده.
  • نص مرجعي:يتم تعيينه افتراضيًا على فارغ لنسخ الصوت المرجعي تلقائيًا. إذا قمت بإدخال نص، فسيتم إلغاء النسخ التلقائي.
  • اختر النموذج:الإفتراضي هو F5-TTS

على سبيل المثال، قم بتحميل خمسة مقاطع صوتية، عادية، مفاجئة، حزينة، غاضبة، همسة، صراخ، لتوليد النص:

(عادي) مرحبًا، أرغب في طلب شطيرة من فضلك. (مندهش) ماذا تقصد بأنك خارج الخبز؟ (حزين) كنت أريد شطيرة حقًا... (غاضب) هل تعلم ماذا، اللعنة عليك وعلى متجرك الصغير، أنتم سيئون! (همس) سأعود إلى المنزل وأبكي الآن. (صراخ) لماذا أنا؟!

يمكنك إنشاء خطاب بمشاعر مختلفة على النحو التالي

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓