نماذج مستندة إلى الانتباه للاعتراف بالكلام

المولدات التكرارية للسلسلة التي يتم تكييفها على البيانات الإدخالية من خلال آلية الانتباه أظهرت مؤخرًا أداءً جيدًا للغاية في مجموعة متنوعة من المهام، بما في ذلك الترجمة الآلية، تركيب الكتابة باليد وإنشاء التعليقات الصوتية للصور. نوسع آلية الانتباه بإضافة الخصائص اللازمة للاعتراف بالكلام. نوضح أن بينما يصل نموذج تم تعديله من النموذج المستخدم في الترجمة الآلية إلى معدل خطأ فونيمي (PER) تنافسي يبلغ 18.7٪ في مهمة الاعتراف بالفونيمات في TIMIT، فإنه يمكن تطبيقه فقط على العبارات التي تكون تقريبًا بنفس طول العبارات التي تم تدريبه عليها. نقدم تفسيرًا كميائيًا لهذا الفشل ونقترح طريقة جديدة ومبتكرة لإضافة الوعي بالموقع إلى آلية الانتباه لتخفيف هذه المشكلة. الطريقة الجديدة تؤدي إلى نموذج قوي أمام المدخلات الطويلة ويحقق معدل خطأ فونيمي (PER) يبلغ 18٪ في العبارات المنفردة و20٪ في العبارات الأطول بعشر مرات (المكررة). أخيرًا، نقترح تعديلًا على آلية الانتباه يمنعها من التركيز بشكل كبير جدًا على الإطارات الفردية، مما يقلل المزيد من معدل الخطأ الفونيمي (PER) إلى مستوى 17.6٪.