HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيل الكلام السمعي البصري من خلال التنبؤ بالعنقود المتعدد الأوضاع المقنّع

Shi, Bowen ; Hsu, Wei-Ning ; Lakhotia, Kushal ; Mohamed, Abdelrahman
تعلم تمثيل الكلام السمعي البصري من خلال التنبؤ بالعنقود المتعدد الأوضاع المقنّع
الملخص

تسجيلات الفيديو للكلام تحتوي على معلومات صوتية وبصرية مرتبطة، مما يوفر إشارة قوية لتعلم تمثيل الكلام من حركات شفتي المتحدث والصوت المنتج. نقدم إطارًا ذاتي الإشراف لتعلم التمثيل الصوتي والبصري للكلام يُعرف بـ BERT الوحدة الخفية الصوتية والبصرية (AV-HuBERT)، والذي يقوم بتغطية مدخلات الفيديو متعددة الأقنية ويتوقع الوحدات الخفية متعددة الوسائط التي يتم اكتشافها تلقائيًا وتحسينها بشكل تكراري.يتعلم AV-HuBERT تمثيل الكلام الصوتي والبصري القوي الذي يستفيد منه كل من قراءة الشفتين والتعرف الآلي على الكلام. على أكبر مقاييس الأداء العامة لقراءة الشفتين LRS3 (433 ساعة)، يحقق AV-HuBERT معدل خطأ الكلمات (WER) بنسبة 32.5% باستخدام فقط 30 ساعة من البيانات المصنفة، مما يتفوق على أحدث نهج سابق في هذا المجال (33.6%) الذي تم تدريبه باستخدام بيانات فيديو مكتوبة بمقدار ألف مرة أكثر (31K ساعة). يتم خفض معدل خطأ الكلمات لقراءة الشفتين إلى 26.9% عند استخدام جميع 433 ساعة من البيانات المصنفة في LRS3 مع التدريب الذاتي.استخدام تمثيلنا الصوتي والبصري في نفس المقاييس للأداء للتعرف على الكلام بالصوت فقط يؤدي إلى خفض نسبي بمعدل خطأ الكلمات بنسبة 40% مقارنة بأفضل أداء سابق (1.3% مقابل 2.3%). يمكن الوصول إلى كودنا ونماذجنا عبر الرابط:https://github.com/facebookresearch/av_hubert