HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف الصوتي البصري الذاتي المُستقل بقوة

Shi Bowen ; Hsu Wei-Ning ; Mohamed Abdelrahman

الملخص

التعرف التلقائي على الكلام المستند إلى الصوت (ASR) ينخفض ​​بشكل كبير في البيئات الصاخبة ويكون عرضة بشكل خاص للكلام المتدخل، حيث لا يمكن للنموذج تحديد أي المتحدث يجب نسخه. تحسن أنظمة التعرف التلقائي على الكلام السمعي-البصري (AVSR) من متانة الأداء عن طريق مكملة تيار الصوت بمعلومات بصرية ثابتة أمام الضوضاء وتساعد النموذج على التركيز على المتحدث المرغوب. ومع ذلك، ركزت الأعمال السابقة في مجال AVSR فقط على الإعداد التعليمي المشرف؛ وبالتالي كانت التقدم مقيدًا بكمية البيانات المصنفة المتاحة. في هذا العمل، نقدم إطارًا ذاتيًا غير مشرف لـ AVSR يستند إلى نموذج Audio-Visual HuBERT (AV-HuBERT)، وهو نموذج رائد في تعلم تمثيل الكلام السمعي-البصري. على أكبر مجموعة بيانات مرجعية متاحة لـ AVSR وهي LRS3، أثبتت منهجيتنا تفوقها بنسبة ~50% (28.0% مقابل 14.1%) باستخدام أقل من 10% من البيانات المصنفة (433 ساعة مقابل 30 ساعة) في وجود ضوضاء الجموع، بينما خفضت معدل الخطأ الكلامي (WER) لنماذج الصوت بنسبة تزيد عن 75% (25.8% مقابل 5.8%) بشكل متوسط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp