HyperAIHyperAI
منذ 4 أشهر

تحسين التعرف على الكلام من البداية إلى النهاية باستخدام تعلم السياسة

Yingbo Zhou; Caiming Xiong; Richard Socher
تحسين التعرف على الكلام من البداية إلى النهاية باستخدام تعلم السياسة
الملخص

يُستخدم التصنيف الزمني الاتصالاتي (CTC) على نطاق واسع في تعلم الأرجحية القصوى في نماذج التعرف على الكلام من النهاية إلى النهاية. ومع ذلك، غالبًا ما يكون هناك اختلاف بين الأرجحية القصوى السالبة والمقياس المستخدم في أداء التعرف على الكلام، مثل معدل الخطأ الكلامي (WER). هذا يؤدي إلى عدم مطابقة بين دالة الهدف والمقياس أثناء التدريب. نوضح أن المشكلة المذكورة أعلاه يمكن تخفيفها من خلال التدريب المشترك باستخدام الأرجحية القصوى وتدرج السياسة. وبشكل خاص، فإننا قادرون من خلال تعلم السياسة على تحسين المقياس الأدائي مباشرة (وهو غير قابل للتفاضل عادةً). نوضح أن التدريب المشترك يحسن الأداء النسبي بنسبة تتراوح بين 4% و13% لنموذجنا من النهاية إلى النهاية مقارنة بنفس النموذج الذي تم تعلمه عبر الأرجحية القصوى. يحقق النموذج معدل خطأ كلامي (WER) قدره 5.53% على مجموعة بيانات جورنال شارع والستريت، ونسبتي 5.42% و14.70% على مجموعتي الاختبار Librispeech test-clean وtest-other، على التوالي.