Chatterbox TTS: عرض توضيحي لتركيب الكلام
1. مقدمة البرنامج التعليمي

Chatterbox هو نموذج تحويل نص إلى كلام (TTS) مفتوح المصدر، أصدرته شركة Resemble AI في 28 مايو 2025، وهو مصمم لتوفير حلول مرنة وعالية الأداء لتوليف الكلام. يُعد هذا النموذج أول نموذج تحويل نص إلى كلام مفتوح المصدر يدعم التحكم في المبالغة العاطفية. يعتمد على بنية LLaMA مع 500 مليون معلمة، وقد تم تدريبه باستخدام أكثر من 500,000 ساعة من بيانات الصوت المختارة. يدعم هذا النموذج توليد لغات متعددة وأنماط صوتية متعددة، ويتفوق أداؤه على أداء الأنظمة المغلقة المصدر مثل ElevenLabs.
من أهم ميزات Chatterbox استنساخ الصوت بدون أي عينة، ما يُمكّنه من توليد أصوات شخصية واقعية للغاية بخمس ثوانٍ فقط من الصوت المرجعي دون الحاجة إلى عملية تدريب معقدة. كما يدعم التحكم في المبالغة العاطفية، ما يسمح للمستخدمين بتعديل شدة المشاعر وسرعة الكلام ونبرة الصوت لجعله أكثر تعبيرًا. تتميز Chatterbox بقدرتها على التوليف الفوري فائق الانخفاض، مع زمن انتقال منخفض يصل إلى أقل من 200 مللي ثانية، ما يجعلها مناسبة للتطبيقات التفاعلية مثل المساعدين الافتراضيين والدبلجة الفورية. ولضمان أمان المحتوى وإمكانية تتبعه، تم دمج تقنية العلامة المائية العصبية من Resemble AI في الصوت الذي يُنتجه Chatterbox لمنع إساءة الاستخدام.
الابتكارات الرئيسية هي كما يلي:
- التحكم في المبالغة العاطفية: من خلال ضبط المعلمات (مثل المبالغة = 0.7 + cfg = 0.3)، يمكنك تحقيق أسلوب كلام من ممل إلى درامي.
- إمكانية التوليف في الوقت الفعلي: تأخير الاستدلال < 200 مللي ثانية، مناسب للسيناريوهات التفاعلية في الوقت الفعلي
موارد الحوسبة في هذا البرنامج التعليمي تستخدم بطاقة RTX 4090 واحدة. يدعم هذا الطراز اللغة الإنجليزية فقط.
2. خطوات التشغيل
1. ابدأ تشغيل الحاوية
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. خطوات الاستخدام
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

1. إنشاء النص
المعلمات المحددة:
- النص المراد تلخيصه: أدخل النص المراد تحويله إلى كلام. الحد الأقصى للطول هو 300 حرف (سيتم حذف النص الطويل تلقائيًا).
- ملف صوتي مرجعي (اختياري): يوفر ملف صوتي مرجعي للسماح للنظام بمحاكاة أسلوب صوت المتحدث ونبرته وإيقاعه.
- المبالغة (محايد = 0.5): يتحكم في درجة المبالغة في التعبير العاطفي ونبرة الصوت.
- CFG/Pace: يتحكم في إيقاع وسرعة الكلام.
- بذرة عشوائية (0 للعشوائية): قم بتعيين البذرة العشوائية.
- درجة الحرارة: تتحكم في عشوائية وتنوع تعبيرات الكلام.
نتيجة
3. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
