HyperAIHyperAI
منذ 2 أشهر

نماذج مستندة إلى الانتباه للاعتراف بالكلام

Jan Chorowski; Dzmitry Bahdanau; Dmitriy Serdyuk; Kyunghyun Cho; Yoshua Bengio
نماذج مستندة إلى الانتباه للاعتراف بالكلام
الملخص

المولدات التكرارية للسلسلة التي يتم تكييفها على البيانات الإدخالية من خلال آلية الانتباه أظهرت مؤخرًا أداءً جيدًا للغاية في مجموعة متنوعة من المهام، بما في ذلك الترجمة الآلية، تركيب الكتابة باليد وإنشاء التعليقات الصوتية للصور. نوسع آلية الانتباه بإضافة الخصائص اللازمة للاعتراف بالكلام. نوضح أن بينما يصل نموذج تم تعديله من النموذج المستخدم في الترجمة الآلية إلى معدل خطأ فونيمي (PER) تنافسي يبلغ 18.7٪ في مهمة الاعتراف بالفونيمات في TIMIT، فإنه يمكن تطبيقه فقط على العبارات التي تكون تقريبًا بنفس طول العبارات التي تم تدريبه عليها. نقدم تفسيرًا كميائيًا لهذا الفشل ونقترح طريقة جديدة ومبتكرة لإضافة الوعي بالموقع إلى آلية الانتباه لتخفيف هذه المشكلة. الطريقة الجديدة تؤدي إلى نموذج قوي أمام المدخلات الطويلة ويحقق معدل خطأ فونيمي (PER) يبلغ 18٪ في العبارات المنفردة و20٪ في العبارات الأطول بعشر مرات (المكررة). أخيرًا، نقترح تعديلًا على آلية الانتباه يمنعها من التركيز بشكل كبير جدًا على الإطارات الفردية، مما يقلل المزيد من معدل الخطأ الفونيمي (PER) إلى مستوى 17.6٪.

نماذج مستندة إلى الانتباه للاعتراف بالكلام | أحدث الأوراق البحثية | HyperAI