HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

إيكو إكس: نحو تقليل الفجوة الصوتية-الدلالية من خلال التدريب بالصدى لنماذج اللغة الكبيرة للتحويل الصوتي-الصوتي

Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li

إيكو إكس: نحو تقليل الفجوة الصوتية-الدلالية من خلال التدريب بالصدى لنماذج اللغة الكبيرة للتحويل الصوتي-الصوتي

الملخص

تلقى النماذج الكبيرة للغة الصوتية إلى الصوتية (SLLMs) اهتمامًا متزايدًا. وتُستمد هذه النماذج من النماذج الكبيرة للغة القائمة على النص (LLMs)، إلا أنها غالبًا ما تُظهر تدهورًا في القدرات المعرفية والاستدلالية. ونفترض أن هذا التقييد ناتج عن فشل النماذج الحالية في بناء جسر بين الفجوة الصوتية والدلالية في فضاء تمثيل الميزات. ولحل هذه المشكلة، نقترح نموذج "EchoX"، الذي يستخدم تمثيلات دلالية ويُولِّد أهداف تدريب صوتية بشكل ديناميكي. ويُعد هذا النهج مزيجًا بين التعلم الصوتي والدالي، مما يمكّن "EchoX" من الحفاظ على قدرات استدلال قوية كنموذج لغوي صوتي. وتُظهر النتائج التجريبية أن "EchoX"، عند تدريبه على بيانات تدريب تُقدّر بحوالي ستة آلاف ساعة، يحقق أداءً متقدمًا في عدة معايير تقييم مبنية على المعرفة. يُمكن الوصول إلى المشروع عبر الرابط التالي: https://github.com/FreedomIntelligence/EchoX.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إيكو إكس: نحو تقليل الفجوة الصوتية-الدلالية من خلال التدريب بالصدى لنماذج اللغة الكبيرة للتحويل الصوتي-الصوتي | الأوراق البحثية | HyperAI