HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة عصبية متكررة لتحويل الكلام الصوتي البصري

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

الملخص

تقدم هذه الدراسة نظامًا للاعتراف باللغة الشفهية متعدد الوسائط على نطاق واسع، مبنيًا على هيكلية نموذج الناقل العصبي التكراري (RNN-T). ولدعم تطوير هذا النظام، قمنا بإنشاء مجموعة بيانات كبيرة متعددة الوسائط (A/V) تتكون من جمل مُفصَّلة مستخرجة من مقاطع فيديو عامة على يوتيوب، ما أدى إلى إنتاج 31 ألف ساعة من المحتوى التدريبي المتعدد الوسائط. وتمت مقارنة أداء الأنظمة الثلاثة: النظام الصوتي الوحيد، والنظام البصري الوحيد، والنظام المتعدد الوسائط، على مجموعتين كبيرتين من المفردات: مجموعة من الجمل المُفصَّلة المستخرجة من مقاطع يوتيوب العامة تُسمى YTDEV18، ومجموعة LRS3-TED المتاحة للعامة. ولإبراز القيمة المضافة للوسيط البصري، قُمنا أيضًا بتقييم أداء النظام على مجموعة YTDEV18 بعد تزويرها اصطناعيًا بضوضاء خلفية وصوت متداخل. وبأفضل معرفة لدينا، فإن نظامنا يُحسّن بشكل كبير الحالة الحالية من الأداء على مجموعة LRS3-TED.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة عصبية متكررة لتحويل الكلام الصوتي البصري | مستندات | HyperAI