Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي
1. مقدمة البرنامج التعليمي

Dia2-TTS هي خدمة توليف كلام فوري مبنية على نموذج Dia2 لتوليد الكلام واسع النطاق (Dia2-2B)، والذي أطلقه فريق nari-labs في نوفمبر 2025. تدعم الخدمة إدخال نصوص حوارية متعددة الأدوار، وموجهات صوتية ثنائية الدور (Prefix Voice)، وأخذ عينات قابل للتحكم في عدة معايير. توفر واجهة تفاعلية كاملة عبر الإنترنت من خلال Grado لتوليف كلام محادثة عالي الجودة. يمكن لـ Dia2-TTS إدخال نصوص حوارية متواصلة متعددة الأدوار مباشرةً لتوليد كلام طبيعي ومتماسك وعالي الجودة، مما يجعلها مناسبة لتطبيقات مثل خدمة العملاء الافتراضية، والمساعدين الصوتيين، ودبلجة الذكاء الاصطناعي، وإنتاج المسلسلات القصيرة.
الميزات الأساسية:
- توليف الكلام الحواري متعدد الأدواريدعم الحوارات المتعددة الأدوار المستمرة بين شخصيتين في الموسم الأول/الثاني.
- النبرة الصوتية المدفوعة ببادئة الصوتالتحكم في اتساق صوت الشخصية من خلال صوت البادئة
- نظام أخذ العينات المزدوجيمكن التحكم في معلمات أخذ عينات النصوص والصوت بشكل مستقل.
- توليد قابل للتحكم في CFGيدعم تعديل مقياس CFG لشدة التوليد الإجمالية.
- مخرجات متوافقة مع الطابع الزمنيتُسهّل الطوابع الزمنية على مستوى الكلمات عملية الترجمة والتحرير في مرحلة ما بعد الإنتاج.
- التفاعل عبر الإنترنتالاستدلال عبر الإنترنت بنقرة واحدة بناءً على Grado.
يستخدم هذا الدليل برنامج Grado لتشغيل خدمة Dia2-TTS لتوليف الكلام في الوقت الفعلي. الموارد الحاسوبية المستخدمة هي "RTX_5090"، القادرة على تشغيل مهام توليد الكلام على مستوى الحوارات المتعددة بسلاسة. حالياً، تقتصر هذه الخدمة على توليد حوارات باللغة الإنجليزية فقط.
2. عرض التأثير

يمكن لتقنية Dia2-TTS تحقيق ما يلي في التطبيقات العملية:
- توليف الكلام الحواري متعدد الأدواريدعم توليد حوارات طبيعية متعددة الأدوار بشكل مستمر.
- إخراج صوتي طبيعي للغايةكلام سلس، وفترات توقف طبيعية، وعواطف مستقرة.
- الاحتفاظ بالشخصياتالحفاظ على ثبات نبرة الصوت بناءً على بادئات الصوت
- إخراج الطابع الزمني الصوتييمكن استخدامه لإنشاء الترجمة، ومزامنة حركة الشفاه، والتحرير الثانوي.
- مخرجات عرض السجلات: أظهر عملية الاستدلال وحالة التوليد بشكل كامل
3. خطوات التشغيل
1. ابدأ تشغيل الحاوية
بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. البدء
إذا ظهرت رسالة "Bad Gateway"، فهذا يعني أن النموذج قيد التهيئة. يُرجى الانتظار من دقيقة إلى دقيقتين ثم تحديث الصفحة.
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

وصف المعلمة
- التحكم الصوتي الشامل
- مقياس CFG: يتحكم في قوة التوجيه الإجمالية لتوليد النصوص والكلام.
- إعدادات أخذ عينات النصوص
- درجة حرارة النص: تتحكم في عشوائية توليد النص.
- أفضل K نص: التحكم في نطاق مرشحي أخذ عينات النصوص
- إعدادات أخذ عينات الصوت
- درجة حرارة الصوت: تتحكم في عشوائية توليد الصوت.
- أعلى K صوتية: تتحكم في نطاق العينات الصوتية المرشحة
- التحكم الصوتي في البادئة
- الاحتفاظ بالبادئة: ما إذا كان سيتم الاحتفاظ بالنطق الذي يسبق البادئة في الناتج النهائي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.