Whisper-Flamingo: دمج الخصائص البصرية في Whisper للاعتراف بالكلام السمعي-البصري والترجمة

التعرف على الكلام السمعي-البصري (AVSR) يستخدم الفيديو القائم على الشفاه لتحسين الأداء في البيئات الصاخبة. نظرًا لصعوبة الحصول على مقاطع الفيديو مقارنة بالصوت، فإن بيانات التدريب المرئية لأنماط AVSR عادة ما تكون محدودة ببضع آلاف ساعة فقط. في المقابل، يتم تدريب نماذج الكلام مثل Whisper بملايين الساعات من البيانات، مما يتيح لها تعلم محول أفضل للكلام إلى النص. هذا الاختلاف الكبير في بيانات التدريب يحفزنا على تعديل Whisper للتعامل مع مدخلات الفيديو. مستوحىً من Flamingo الذي يقوم بإدخال الخصائص البصرية في نماذج اللغة، نقترح Whisper-Flamingo الذي يدمج الخصائص البصرية في نموذج التعرف على الكلام والترجمة Whisper باستخدام الانتباه العرضي المحكوم (gated cross attention). حققت نماذجنا أحدث معدلات الخطأ في التعرف على الكلام السمعي (ASR WER) (0.68%) والتعرف على الكلام السمعي-البصري (AVSR WER) (0.76%) على LRS3، وأحدث معدلات الخطأ في التعرف على الكلام السمعي (1.3%) والتعرف على الكلام السمعي-البصري (1.4%) على LRS2. يعمل Whisper-Flamingo السمعي-البصري بشكل أفضل من Whisper السمعي فقط في التعرف على الكلام الإنجليزي وترجمة En-X لست لغات في ظروف صاخبة. بالإضافة إلى ذلك، يعد Whisper-Flamingo متعدد الاستخدامات ويقوم بتنفيذ جميع هذه المهام باستخدام مجموعة واحدة من المعلمات، بينما يتم تدريب الأساليب السابقة بشكل منفصل لكل لغة.