HyperAI

موس: توليد الحوار من النص إلى الكلام

1. مقدمة البرنامج التعليمي

يبني

MOSS-TTSD هو نموذج مفتوح المصدر لتوليف الحوار المنطوق ثنائي اللغة، أصدره فريق OpenMOSS في 20 يونيو 2025، ويدعم اللغتين الصينية والإنجليزية. يُمكّن هذا النموذج من تحويل نص محادثة بين متحدثين إلى كلام حواري طبيعي ومعبر. يدعم MOSS-TTSD استنساخ الصوت وتوليد كلام طويل من مقطع واحد، مما يجعله مثاليًا لإنتاج بودكاست الذكاء الاصطناعي. نتائج البحث ذات الصلة هي:MOSS-TTSD: توليد الحوار المنطوق من النص".

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار لمدة دقيقتين أو ثلاث دقائق ثم تحديث الصفحة. عند استخدام متصفح سفاري، قد لا يتم تشغيل الصوت مباشرةً، ويجب تنزيله قبل التشغيل.

*يسمح لك هذا البرنامج التعليمي بالاختيار بين إنشاء صوت لاعب واحد (فردي) وإنشاء صوت حوار لاعبين (الدور) في "وضع إدخال الصوت".

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{moss2025ttsd,
  title={Text to Spoken Dialogue Generation}, 
  author={OpenMOSS Team},
  year={2025}
}