يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط
1. مقدمة البرنامج التعليمي

يتضمن هذا البرنامج التعليمي نموذجين للاستخدام التجريبي، وهما F5-TTS وE2 TTS.
F5-TTS هو نظام تحويل النص إلى كلام (TTS) عالي الأداء تم إطلاقه بشكل مشترك من قبل جامعة شنغهاي جياو تونغ وجامعة كامبريدج ومعهد أبحاث السيارات جيلي (نينغبو) المحدودة في عام 2024. ويعتمد على طريقة توليد غير انحدارية تعتمد على مطابقة التدفق، جنبًا إلى جنب مع تقنية محول الانتشار (DiT). نتائج الورقة ذات الصلة هيF5-TTS: حكايتي الخيالية التي تتظاهر بالكلام السلس والصادق باستخدام مطابقة التدفقيستطيع هذا النظام توليد كلام طبيعي وسلسل ودقيق للنص الأصلي بسرعة من خلال التعلم التلقائي دون إشراف إضافي. يدعم F5-TTS توليفًا متعدد اللغات، بما في ذلك الصينية والإنجليزية، ويمكنه إجراء توليف كلامي فعال للنصوص الطويلة. بالإضافة إلى ذلك، يتميز F5-TTS بوظيفة للتحكم في المشاعر تُمكّن من تعديل التعبير العاطفي للكلام المُركّب وفقًا لمحتوى النص، ويدعم التحكم في السرعة، مما يسمح للمستخدمين بتعديل سرعة تشغيل الكلام حسب الحاجة. تم تدريب النظام على مجموعة بيانات واسعة النطاق تمتد لـ 100,000 ساعة، وأظهر أداءً وقدرات تعميم ممتازة. تشمل الميزات الرئيسية لـ F5-TTS استنساخ الصوت بدون عينة، والتحكم في السرعة، والتحكم في التعبير العاطفي، وتوليف النصوص الطويلة، ودعم لغات متعددة. تتضمن مبادئه التقنية مطابقة التدفق، ومحول الانتشار (DiT)، وتحسين تمثيل النص ConvNeXt V2، واستراتيجية أخذ العينات Sway، وتصميم النظام الشامل. يتمتع F5-TTS بمجموعة واسعة من سيناريوهات التطبيق، بما في ذلك الكتب الصوتية، والمساعدين الصوتيين، وتعلم اللغة، وبث الأخبار، ودبلجة الألعاب، وما إلى ذلك، مما يوفر قدرات قوية لتوليف الكلام لأغراض تجارية وغير تجارية مختلفة.
E2 TTS، وهو اختصار لـ Embarrassingly Easy Text-to-Speech، هو نظام متقدم لتحويل النص إلى كلام (TTS) يحقق الطبيعية على مستوى الإنسان وتشابه المتحدث من خلال عملية مبسطة. يكمن جوهر E2 TTS في طبيعته غير الانحدارية تمامًا، مما يعني أنه يمكنه إنشاء تسلسل الكلام بالكامل مرة واحدة دون الحاجة إلى إنشاء خطوة بخطوة، مما يزيد بشكل كبير من سرعة التوليد مع الحفاظ على جودة إخراج الكلام. نتائج الورقة ذات الصلة هيE2 TTS: TTS سهل بشكل محرج وغير تلقائي بالكامل وغير قابل للتراجعتم قبول "،" من قِبل SLT 2024. في إطار عمل E2 TTS، يُحوّل إدخال النص إلى سلسلة من الأحرف مع رموز الحشو. ثم يُدرّب مُولّد مخطط طيفي ميل قائم على مطابقة التدفق لمهمة ملء الصوت. بخلاف العديد من الأعمال السابقة، لا يتطلب هذا النظام مكونات إضافية (مثل نماذج المدة، وترجمة الحروف إلى الفونيمات) أو تقنيات معقدة (مثل البحث عن محاذاة رتيبة). على الرغم من بساطته، يُحقق E2 TTS إمكانيات تحويل نص إلى كلام (TTS) متطورة، تُضاهي أو تتجاوز الأعمال السابقة، بما في ذلك Voicebox وNaturalSpeech 3. كما تتيح بساطة E2 TTS مرونة في تمثيل المدخلات.
该教程支持如下模型和功能: 2 个模型检查点: F5-TTS E2 TTS 3 个功能:单人语音生成(Batched TTS): 根据上传的音频进行文本生成。 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。
يستخدم هذا البرنامج التعليمي بطاقة RTX 5090 واحدة كمورد.
2. أمثلة المشاريع
1. تحويل النص إلى كلام مجمع

2. إنشاء البودكاست

3. توليد أنواع متعددة من الكلام

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار حوالي 9 دقائق ثم تحديث الصفحة.
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.
1. تحويل النص إلى كلام مجمع

وصف المعلمة
- نص مرجعي:اتركه فارغًا ليتم نسخ الصوت المرجعي تلقائيًا. إذا قمت بإدخال نص، فسيتم إلغاء النسخ التلقائي.
- إزالة الصمت:يميل هذا النموذج إلى إنتاج الصمت، وخاصة في الصوت الأطول. يمكننا إزالة الصمت يدويًا إذا لزم الأمر. يرجى ملاحظة أن هذه ميزة تجريبية وقد تؤدي إلى نتائج غريبة. سيؤدي هذا أيضًا إلى زيادة وقت البناء.
- كلمات مقسمة مخصصة:أدخل الكلمات المخصصة التي تريد تقسيمها، مفصولة بفاصلات. اتركه فارغًا لاستخدام القائمة الافتراضية.
- سرعة:التحكم في سرعة الكلام الناتج
2. إنشاء البودكاست


3. توليد أنواع متعددة من الكلام

معلومات الاستشهاد
@article{chen-etal-2024-f5tts,
title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching},
author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
journal={arXiv preprint arXiv:2410.06885},
year={2024},
}بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.