HyperAIHyperAI
منذ 17 أيام

الانتباه المُرخي: طريقة بسيطة لتعزيز أداء التعرف التلقائي على الكلام من الطرف إلى الطرف

Timo Lohrenz, Patrick Schwarz, Zhengyang Li, Tim Fingscheidt
الانتباه المُرخي: طريقة بسيطة لتعزيز أداء التعرف التلقائي على الكلام من الطرف إلى الطرف
الملخص

في الآونة الأخيرة، أظهرت نماذج المُشفِّر-المُفكِّك القائمة على الانتباه (AED) أداءً عاليًا في التعرف التلقائي على الصوت (ASR) من الطرف إلى الطرف في عدة مهام. وبالنظر إلى مشكلة التفاؤل الزائد في هذه النماذج، نقدّم في هذا البحث مفهوم "الانتباه المُرتخِي"، وهو تدبير بسيط يُطبَّق تدريجيًا بإدخال توزيع منتظم إلى أوزان انتباه المُشفِّر-المُفكِّك أثناء التدريب، ويمكن تنفيذه بسهولة بخطيْن من الشفرة. وندرس تأثير الانتباه المُرتخِي عبر معمليّات معمارية مختلفة لنماذج AED، بالإضافة إلى مهامين بارزين في مجال ASR، وهما وول ستريت جورنال (WSJ) وليبريسبيتش. ووجدنا أن نماذج الترانسفورمر المُدرَّبة باستخدام الانتباه المُرتخِي تتفوّق باستمرار على النماذج الأساسية القياسية أثناء عملية فك الترميز باستخدام نماذج لغوية خارجية. وفي مهمة WSJ، حددنا معيارًا جديدًا لأداء التعرف التلقائي على الصوت القائم على الترانسفورمر، بتحقيق معدل خطأ كلمات قدره 3.65%، متفوّقًا على الحد الأقصى المُحقَّق حاليًا (4.20%) بنسبة 13.1% نسبيًا، مع إدخال متغير واحد فقط في المُعاملات.

الانتباه المُرخي: طريقة بسيطة لتعزيز أداء التعرف التلقائي على الكلام من الطرف إلى الطرف | أحدث الأوراق البحثية | HyperAI