شبكة عصبية متكررة لتحويل الكلام الصوتي البصري

تقدم هذه الدراسة نظامًا للاعتراف باللغة الشفهية متعدد الوسائط على نطاق واسع، مبنيًا على هيكلية نموذج الناقل العصبي التكراري (RNN-T). ولدعم تطوير هذا النظام، قمنا بإنشاء مجموعة بيانات كبيرة متعددة الوسائط (A/V) تتكون من جمل مُفصَّلة مستخرجة من مقاطع فيديو عامة على يوتيوب، ما أدى إلى إنتاج 31 ألف ساعة من المحتوى التدريبي المتعدد الوسائط. وتمت مقارنة أداء الأنظمة الثلاثة: النظام الصوتي الوحيد، والنظام البصري الوحيد، والنظام المتعدد الوسائط، على مجموعتين كبيرتين من المفردات: مجموعة من الجمل المُفصَّلة المستخرجة من مقاطع يوتيوب العامة تُسمى YTDEV18، ومجموعة LRS3-TED المتاحة للعامة. ولإبراز القيمة المضافة للوسيط البصري، قُمنا أيضًا بتقييم أداء النظام على مجموعة YTDEV18 بعد تزويرها اصطناعيًا بضوضاء خلفية وصوت متداخل. وبأفضل معرفة لدينا، فإن نظامنا يُحسّن بشكل كبير الحالة الحالية من الأداء على مجموعة LRS3-TED.