HyperAIHyperAI
منذ 2 أشهر

التعرف الصوتي البصري الذاتي المُستقل بقوة

Shi, Bowen ; Hsu, Wei-Ning ; Mohamed, Abdelrahman
التعرف الصوتي البصري الذاتي المُستقل بقوة
الملخص

التعرف التلقائي على الكلام المستند إلى الصوت (ASR) ينخفض ​​بشكل كبير في البيئات الصاخبة ويكون عرضة بشكل خاص للكلام المتدخل، حيث لا يمكن للنموذج تحديد أي المتحدث يجب نسخه. تحسن أنظمة التعرف التلقائي على الكلام السمعي-البصري (AVSR) من متانة الأداء عن طريق مكملة تيار الصوت بمعلومات بصرية ثابتة أمام الضوضاء وتساعد النموذج على التركيز على المتحدث المرغوب. ومع ذلك، ركزت الأعمال السابقة في مجال AVSR فقط على الإعداد التعليمي المشرف؛ وبالتالي كانت التقدم مقيدًا بكمية البيانات المصنفة المتاحة. في هذا العمل، نقدم إطارًا ذاتيًا غير مشرف لـ AVSR يستند إلى نموذج Audio-Visual HuBERT (AV-HuBERT)، وهو نموذج رائد في تعلم تمثيل الكلام السمعي-البصري. على أكبر مجموعة بيانات مرجعية متاحة لـ AVSR وهي LRS3، أثبتت منهجيتنا تفوقها بنسبة ~50% (28.0% مقابل 14.1%) باستخدام أقل من 10% من البيانات المصنفة (433 ساعة مقابل 30 ساعة) في وجود ضوضاء الجموع، بينما خفضت معدل الخطأ الكلامي (WER) لنماذج الصوت بنسبة تزيد عن 75% (25.8% مقابل 5.8%) بشكل متوسط.