نموذج تجريبي لتوليد الكلام التحادثي من CSM
1. مقدمة البرنامج التعليمي
CSM (نموذج الكلام المحادثة) هو نموذج كلام محادثة تم تطويره من قبل فريق Sesame في عام 2025. ويهدف إلى تعزيز قدرات التفاعل العاطفي للمساعدين الصوتيين من خلال تقنية توليد الكلام الطبيعي والمتماسك. يعتمد النموذج على إطار تعليمي متعدد الوسائط، ويجمع بين البيانات النصية والصوتية، ويستخدم بنية المحول الشاملة لتوليد الكلام الطبيعي والعاطفي بشكل مباشر. يمكنه إنشاء أكواد صوتية RVQ استنادًا إلى المدخلات النصية والصوتية. يستخدم نموذج الهندسة المعمارية العمود الفقري Llama وفك تشفير صوتي صغير يقوم بإنشاء رمز صوتي Mimi.
يستخدم هذا البرنامج التعليمي نموذج CSM-1B لتنفيذ محادثة بين شخصين (يدعم فقط إنشاء اللغة الإنجليزية)، ويستخدم مورد قوة الحوسبة RTX 4090.
2. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. اضبط الكائن الناطق

3. إعداد الحوار وتوليف الكلام (يدعم توليد اللغة الإنجليزية فقط)

التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
