HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين التعرف على الكلام من البداية إلى النهاية باستخدام تعلم السياسة

Yingbo Zhou; Caiming Xiong; Richard Socher

الملخص

يُستخدم التصنيف الزمني الاتصالاتي (CTC) على نطاق واسع في تعلم الأرجحية القصوى في نماذج التعرف على الكلام من النهاية إلى النهاية. ومع ذلك، غالبًا ما يكون هناك اختلاف بين الأرجحية القصوى السالبة والمقياس المستخدم في أداء التعرف على الكلام، مثل معدل الخطأ الكلامي (WER). هذا يؤدي إلى عدم مطابقة بين دالة الهدف والمقياس أثناء التدريب. نوضح أن المشكلة المذكورة أعلاه يمكن تخفيفها من خلال التدريب المشترك باستخدام الأرجحية القصوى وتدرج السياسة. وبشكل خاص، فإننا قادرون من خلال تعلم السياسة على تحسين المقياس الأدائي مباشرة (وهو غير قابل للتفاضل عادةً). نوضح أن التدريب المشترك يحسن الأداء النسبي بنسبة تتراوح بين 4% و13% لنموذجنا من النهاية إلى النهاية مقارنة بنفس النموذج الذي تم تعلمه عبر الأرجحية القصوى. يحقق النموذج معدل خطأ كلامي (WER) قدره 5.53% على مجموعة بيانات جورنال شارع والستريت، ونسبتي 5.42% و14.70% على مجموعتي الاختبار Librispeech test-clean وtest-other، على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp