HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف الموحد على الكلام: نموذج واحد للمدخلات السمعية والبصرية والسمعية-البصرية

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

الملخص

لطالما أجريت الأبحاث في التعرف على الكلام السمعي والبصري والتعرف على الكلام السمعي-البصري (ASR، VSR، وAVSR على التوالي) بشكل مستقل. وحتى الدراسات الذاتية غير المشرفة الحديثة التي تتناول مهامين أو جميع المهام الثلاثة في آن واحد تميل إلى إنتاج نماذج منفصلة، مما يؤدي إلى أنابيب استدلال منفصلة تتطلب ذاكرة أكبر وتتضمن تكرارات. تقترح هذه الورقة استراتيجيات تدريب موحدة لهذه الأنظمة. نثبت أن تدريب نموذج واحد لجميع المهام الثلاثة يعزز أداء VSR وAVSR، مع التغلب على تحديات الأمثلة الشائعة عند بدء التدريب من الصفر. بالإضافة إلى ذلك، نقدم طريقة تسمية زائفة جشعة للاستفادة بشكل أكثر فعالية من العينات غير المصنفة، معالجة القصور في الطرق ذاتية عدم الإشراف ذات الصلة. وأخيرًا، نطور طريقة تدريب أولي ذاتي ضمن إطارنا الخاص، مما يثبت فعاليتها بجانب نهجنا شبه المشرف. رغم استخدام نموذج واحد لجميع المهام، فإن نهجنا الموحد يحقق أداءً رائدًا بالمقارنة مع الأساليب الحديثة على LRS3 وLRS2 للتعرف على الكلام السمعي والبصري والتعرف على الكلام السمعي-البصري، وكذلك على مجموعة البيانات الجديدة WildVSR. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/ahaliassos/usr.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعرف الموحد على الكلام: نموذج واحد للمدخلات السمعية والبصرية والسمعية-البصرية | مستندات | HyperAI