HyperAIHyperAI
منذ 10 أيام

شبكة عصبية متكررة لتحويل الكلام الصوتي البصري

Takaki Makino, Hank Liao, Yannis Assael, Brendan Shillingford, Basilio Garcia, Otavio Braga, Olivier Siohan
شبكة عصبية متكررة لتحويل الكلام الصوتي البصري
الملخص

تقدم هذه الدراسة نظامًا للاعتراف باللغة الشفهية متعدد الوسائط على نطاق واسع، مبنيًا على هيكلية نموذج الناقل العصبي التكراري (RNN-T). ولدعم تطوير هذا النظام، قمنا بإنشاء مجموعة بيانات كبيرة متعددة الوسائط (A/V) تتكون من جمل مُفصَّلة مستخرجة من مقاطع فيديو عامة على يوتيوب، ما أدى إلى إنتاج 31 ألف ساعة من المحتوى التدريبي المتعدد الوسائط. وتمت مقارنة أداء الأنظمة الثلاثة: النظام الصوتي الوحيد، والنظام البصري الوحيد، والنظام المتعدد الوسائط، على مجموعتين كبيرتين من المفردات: مجموعة من الجمل المُفصَّلة المستخرجة من مقاطع يوتيوب العامة تُسمى YTDEV18، ومجموعة LRS3-TED المتاحة للعامة. ولإبراز القيمة المضافة للوسيط البصري، قُمنا أيضًا بتقييم أداء النظام على مجموعة YTDEV18 بعد تزويرها اصطناعيًا بضوضاء خلفية وصوت متداخل. وبأفضل معرفة لدينا، فإن نظامنا يُحسّن بشكل كبير الحالة الحالية من الأداء على مجموعة LRS3-TED.