التعرف على الكلام البصري لعدة لغات في البيئة الحقيقية

التعرف على الكلام البصري (VSR) يهدف إلى التعرف على محتوى الكلام بناءً على حركات الشفاه، دون الاعتماد على الموجة الصوتية. التقدم في تعلم العمق وتوافر قواعد بيانات صوتية-بصرية كبيرة أدّى إلى تطوير نماذج VSR أكثر دقة ومتانة من أي وقت مضى. ومع ذلك، فإن هذه التطورات غالبًا ما تكون بسبب زيادة حجم مجموعات التدريب بدلًا من تصميم النموذج. هنا نثبت أن تصميم نماذج أفضل هو أمر مهم بنفس القدر مثل استخدام مجموعات تدريب أكبر. نقترح إضافة مهام فرعية تعتمد على التنبؤ إلى نموذج VSR، ونؤكد أهمية تحسين المعلمات الفائقة واختيارات التعزيز المناسبة للبيانات. نظهر أن هذا النموذج يعمل مع لغات مختلفة ويتفوق بكثير على جميع الأساليب السابقة التي تم تدريبها على قواعد بيانات متاحة للعامة. بل وحتى أنه يتفوق على النماذج التي تم تدريبها على قواعد بيانات غير متاحة للعامة تحتوي على ما يصل إلى 21 مرة أكثر من البيانات. بالإضافة إلى ذلك، نبين أن استخدام بيانات تدريب إضافية، حتى لو كانت بلغات أخرى أو مع النصوص المُنتجة آليًا، يؤدي إلى تحسين إضافي.