HyperAIHyperAI

Command Palette

Search for a command to run...

المطابقات هي كل ما تحتاجه للاعتراف بالكلام البصري

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

الملخص

تقوم نماذج التعرف على الكلام البصري باستخراج الخصائص البصرية بطريقة تراتبية. على المستوى الأدنى، يوجد جهاز معالجة بصري مقدمة (front-end) له مجال استقبال زمني محدود يعالج البكسلات الخام التي تمثل الشفاه أو الوجوه. وعلى المستوى الأعلى، يوجد مُشفر (encoder) يركز على المتجهات المضمنة التي ينتجها الجهاز المعالج البصري المقدمة على مدى مجال استقبال زمني كبير. ركزت الأعمال السابقة على تحسين جهاز المعالجة البصري المقدمة للنموذج لاستخراج خصائص أكثر فائدة للتعرف على الكلام. ومع ذلك، فإن عملنا يظهر بشكل مفاجئ أن الأجهزة المعالجة البصرية المقدمة المعقدة ليست ضرورية. بدلاً من تخصيص الموارد لجهاز معالجة بصري مقدم معقد، وجدنا أن جهاز معالجة بصري مقدم خطي مقترن بمُشفر Conformer أكبر يؤدي إلى انخفاض في وقت الاستجابة، واستخدام ذاكرة أكثر كفاءة، وأداء أفضل في معدل الخطأ الكلامي (WER). حققنا مستوى جديدًا من الطليعة في معدل الخطأ الكلامي (WER) بنسبة 12.8% للتعرف على الكلام البصري في مجموعة بيانات TED LRS3، مما ينافس أداء النماذج الصوتية فقط من أربع سنوات مضت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp