Command Palette
Search for a command to run...
إيكو إكس: نحو تقليل الفجوة الصوتية-الدلالية من خلال التدريب بالصدى لنماذج اللغة الكبيرة للتحويل الصوتي-الصوتي
Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li

الملخص
تلقى النماذج الكبيرة للغة الصوتية إلى الصوتية (SLLMs) اهتمامًا متزايدًا. وتُستمد هذه النماذج من النماذج الكبيرة للغة القائمة على النص (LLMs)، إلا أنها غالبًا ما تُظهر تدهورًا في القدرات المعرفية والاستدلالية. ونفترض أن هذا التقييد ناتج عن فشل النماذج الحالية في بناء جسر بين الفجوة الصوتية والدلالية في فضاء تمثيل الميزات. ولحل هذه المشكلة، نقترح نموذج "EchoX"، الذي يستخدم تمثيلات دلالية ويُولِّد أهداف تدريب صوتية بشكل ديناميكي. ويُعد هذا النهج مزيجًا بين التعلم الصوتي والدالي، مما يمكّن "EchoX" من الحفاظ على قدرات استدلال قوية كنموذج لغوي صوتي. وتُظهر النتائج التجريبية أن "EchoX"، عند تدريبه على بيانات تدريب تُقدّر بحوالي ستة آلاف ساعة، يحقق أداءً متقدمًا في عدة معايير تقييم مبنية على المعرفة. يُمكن الوصول إلى المشروع عبر الرابط التالي: https://github.com/FreedomIntelligence/EchoX.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.