HyperAIHyperAI
منذ 18 أيام

Whispering LLaMA: إطار عمل تصحيح الأخطاء التوليدية عبر الوسائط للاعتراف بالصوت

Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner
Whispering LLaMA: إطار عمل تصحيح الأخطاء التوليدية عبر الوسائط للاعتراف بالصوت
الملخص

نقدّم تقنية جديدة للدمج عبر الوسائط مصممة لتصحيح الأخطاء التوليدية في التعرف على الكلام التلقائي (ASR). تعتمد منهجيتنا على استغلال المعلومات الصوتية والتمثيلات اللغوية الخارجية لتكوين سياقات تحويل دقيقة للكلام. يُعد هذا خطوة نحو نموذج جديد في تصحيح الأخطاء التوليدية ضمن نطاق افتراضات n-best. على عكس الطرق الحالية القائمة على التصنيف وإعادة التقييم، يستخدم نهجنا ببراعة تقنيات تهيئة مختلفة وخوارزميات فعّالة من حيث المعلمات لتعزيز أداء ASR المستمد من نماذج الكلام والنص المُدرّبة مسبقًا. من خلال التقييم على مجموعة متنوعة من مجموعات بيانات ASR، قمنا بتقييم استقرار وقابلية إعادة إنتاج تقنية الدمج لدينا، مُظهرين تحسّنًا في الأداء بالنسبة لمعامل خطأ الكلمة النسبي (WERR) مقارنةً بافتراضات n-best بنسبة تصل إلى 37.66%. ولتشجيع الأبحاث المستقبلية، قمنا بالإفصاح عن كودنا والنماذج المُدرّبة مسبقًا مفتوحة المصدر عبر الرابط: https://github.com/Srijith-rkr/Whispering-LLaMA.

Whispering LLaMA: إطار عمل تصحيح الأخطاء التوليدية عبر الوسائط للاعتراف بالصوت | أحدث الأوراق البحثية | HyperAI