OpenS2S: تطوير نموذج لغة الكلام التعاطفي المفتوح المصدر من البداية إلى النهاية

التفاعل التعاطفي هو ركن أساسي في التواصل بين الإنسان والآلة، نظرًا لحاجة فهم الكلام المُغَنّى بالدلالات الصوتية غير اللغوية وإنتاج استجابات عاطفية وتعبيرية. ومع ذلك، فإن أقوى النماذج اللغوية الكبيرة المعتمدة على التعلم العميق (LSLMs) تصبح مغلقة بشكل متزايد، مما يجعل التفاصيل الحاسمة حول البنية والبيانات والتطوير غير واضحة للباحثين. نظرًا للأهمية القصوى لأبحاث شفافة حول النماذج اللغوية الكبيرة المعتمدة على التعلم العميق (LSLMs) والسلوك التعاطفي، نقدم OpenS2S، وهو نموذج مفتوح المصدر تمامًا وشفاف ومتكامل من البداية إلى النهاية مصمم لتمكين التفاعلات الكلامية التعاطفة. يعتمد OpenS2S على نموذجنا للكلام إلى النص التعاطفي BLSP-Emo، ويستخدم بنية فك تشفير متداخلة بثيًا لتحقيق إنتاج كلام بتأخير منخفض. لتسهيل التدريب المتكامل من البداية إلى النهاية، يدمج OpenS2S خط أنابيب بيانات آلي يُنشئ حواريات كلام تعاطفية متنوعة وجودتها عالية بتكلفة منخفضة. عن طريق الاستفادة من النماذج اللغوية الكبيرة لإنتاج محتوى تعاطفي وأنظمة تحويل النص إلى كلام قابلة للتحكم لإدخال تباين في المتحدث والعواطف، نقوم بإنشاء مجموعة بيانات تدريب قابلة للتوسع تحتوي على تنوع دلالي صوتي غني وأقل إشراف بشري. نطلق النموذج OpenS2S المفتوح المصدر تمامًا، بما في ذلك مجموعة البيانات وأوزان النموذج وكود التدريب الأولي وتحسين الدقة، لتمكين المجتمع البحثي الأوسع وتوفير دفع للابتكار في أنظمة الكلام التعاطفة. يمكن الوصول إلى صفحة الويب الخاصة بالمشروع عبر هذا الرابط: https URL