الملخص

تقدم هذه الدراسة نظامًا للاعتراف باللغة الشفهية متعدد الوسائط على نطاق واسع، مبنيًا على هيكلية نموذج الناقل العصبي التكراري (RNN-T). ولدعم تطوير هذا النظام، قمنا بإنشاء مجموعة بيانات كبيرة متعددة الوسائط (A/V) تتكون من جمل مُفصَّلة مستخرجة من مقاطع فيديو عامة على يوتيوب، ما أدى إلى إنتاج 31 ألف ساعة من المحتوى التدريبي المتعدد الوسائط. وتمت مقارنة أداء الأنظمة الثلاثة: النظام الصوتي الوحيد، والنظام البصري الوحيد، والنظام المتعدد الوسائط، على مجموعتين كبيرتين من المفردات: مجموعة من الجمل المُفصَّلة المستخرجة من مقاطع يوتيوب العامة تُسمى YTDEV18، ومجموعة LRS3-TED المتاحة للعامة. ولإبراز القيمة المضافة للوسيط البصري، قُمنا أيضًا بتقييم أداء النظام على مجموعة YTDEV18 بعد تزويرها اصطناعيًا بضوضاء خلفية وصوت متداخل. وبأفضل معرفة لدينا، فإن نظامنا يُحسّن بشكل كبير الحالة الحالية من الأداء على مجموعة LRS3-TED.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار