Auto-AVSR: التعرف على الكلام السمعي البصري باستخدام العلامات التلقائية

تلقى التعرف على الكلام السمعي البصري اهتمامًا كبيرًا بسبب مقاومته للضوضاء الصوتية. مؤخرًا، تحسنت أداء أنظمة التعرف على الكلام التلقائي، والبصري، والسمعيبصري (ASR، VSR، وAV-ASR على التوالي) بشكل كبير، وذلك أساسًا بفضل استخدام نماذج أكبر ومجموعات تدريب أوسع. ومع ذلك، فإن تصنيف مجموعات البيانات بدقة يستغرق وقتًا طويلاً ويكون مكلفًا. لذلك، في هذا البحث، ندرس استخدام النصوص المكتوبة تلقائيًا لمجموعات البيانات غير المصنفة لزيادة حجم مجموعة التدريب. لهذا الغرض، نستخدم نماذج ASR مسبقة التدريب متاحة للعامة لكتابة النصوص تلقائيًا لمجموعات البيانات غير المصنفة مثل AVSpeech وVoxCeleb2. ثم نقوم بتدريب نماذج ASR وVSR وAV-ASR على مجموعة التدريب المعززة، والتي تتكون من مجموعات البيانات LRS2 وLRS3 بالإضافة إلى البيانات الإضافية التي تم كتابتها تلقائيًا. نوضح أن زيادة حجم مجموعة التدريب، وهي ظاهرة حديثة في الأدب العلمي، تؤدي إلى انخفاض معدل الخطأ الكلامي (WER) رغم استخدام النصوص المكتوبة بتقنية ضوضائية. يحقق النموذج المقترح أداءً جديدًا يتفوق على أفضل ما هو معروف في مجال AV-ASR على LRS2 وLRS3. وبشكل خاص، يحقق معدل خطأ كلامي (WER) قدره 0.9% على LRS3، وهو تحسن نسبي بنسبة 30% عن أفضل الطُرق الحالية المعروفة، ويتفوق على الطرق التي تم تدريبها على مجموعات بيانات غير متاحة للعامة تحتوي على 26 مرة أكثر من بيانات التدريب.