التعرف الموحد على الكلام: نموذج واحد للمدخلات السمعية والبصرية والسمعية-البصرية

لطالما أجريت الأبحاث في التعرف على الكلام السمعي والبصري والتعرف على الكلام السمعي-البصري (ASR، VSR، وAVSR على التوالي) بشكل مستقل. وحتى الدراسات الذاتية غير المشرفة الحديثة التي تتناول مهامين أو جميع المهام الثلاثة في آن واحد تميل إلى إنتاج نماذج منفصلة، مما يؤدي إلى أنابيب استدلال منفصلة تتطلب ذاكرة أكبر وتتضمن تكرارات. تقترح هذه الورقة استراتيجيات تدريب موحدة لهذه الأنظمة. نثبت أن تدريب نموذج واحد لجميع المهام الثلاثة يعزز أداء VSR وAVSR، مع التغلب على تحديات الأمثلة الشائعة عند بدء التدريب من الصفر. بالإضافة إلى ذلك، نقدم طريقة تسمية زائفة جشعة للاستفادة بشكل أكثر فعالية من العينات غير المصنفة، معالجة القصور في الطرق ذاتية عدم الإشراف ذات الصلة. وأخيرًا، نطور طريقة تدريب أولي ذاتي ضمن إطارنا الخاص، مما يثبت فعاليتها بجانب نهجنا شبه المشرف. رغم استخدام نموذج واحد لجميع المهام، فإن نهجنا الموحد يحقق أداءً رائدًا بالمقارنة مع الأساليب الحديثة على LRS3 وLRS2 للتعرف على الكلام السمعي والبصري والتعرف على الكلام السمعي-البصري، وكذلك على مجموعة البيانات الجديدة WildVSR. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/ahaliassos/usr.