HyperAIHyperAI
منذ 17 أيام

TEVR: تحسين التعرف على الصوت من خلال تقليل التباين في الانتروبيا الخاصة بالـ token

Hajo Nils Krabbenhöft, Erhardt Barth
TEVR: تحسين التعرف على الصوت من خلال تقليل التباين في الانتروبيا الخاصة بالـ token
الملخص

يقدم هذا البحث نموذج التعرف على الكلام TEVR، المصمم لتقليل التغير في الانتروبيا الخاصة بالرمز (token entropy) بالنسبة إلى نموذج اللغة. ويستفيد هذا النموذج من حقيقة أنه إذا كان نموذج اللغة قادرًا على التنبؤ بالرمز بشكل موثوق ودقيق على أي حال، فإن النموذج الصوتي لا يحتاج إلى أن يكون دقيقًا في تمييزه. تم تدريب نماذج التعرف على الكلام الألمانية ذات 900 مليون معلمة، وأظهرت النتائج أن نموذج TEVR حقق معدل خطأ كلمة مُحَسَّن جدًا يبلغ 3.64% على مجموعة بيانات CommonVoice الألمانية، ما يفوق أفضل النتائج المبلغ عنها سابقًا بنسبة خفض نسبية في معدل خطأ الكلمة تبلغ 16.89%. ونأمل أن يؤدي إتاحة خط أنابيب التعرف على الكلام المدرب بالكامل للمجتمع إلى تطوير مساعدات افتراضية دون اتصال تُراعي خصوصية المستخدمين في المستقبل.

TEVR: تحسين التعرف على الصوت من خلال تقليل التباين في الانتروبيا الخاصة بالـ token | أحدث الأوراق البحثية | HyperAI