HyperAIHyperAI

Command Palette

Search for a command to run...

Whisper-Flamingo: دمج الخصائص البصرية في Whisper للاعتراف بالكلام السمعي-البصري والترجمة

Andrew Rouditchenko Yuan Gong Samuel Thomas Leonid Karlinsky Hilde Kuehne Rogerio Feris James Glass

الملخص

التعرف على الكلام السمعي-البصري (AVSR) يستخدم الفيديو القائم على الشفاه لتحسين الأداء في البيئات الصاخبة. نظرًا لصعوبة الحصول على مقاطع الفيديو مقارنة بالصوت، فإن بيانات التدريب المرئية لأنماط AVSR عادة ما تكون محدودة ببضع آلاف ساعة فقط. في المقابل، يتم تدريب نماذج الكلام مثل Whisper بملايين الساعات من البيانات، مما يتيح لها تعلم محول أفضل للكلام إلى النص. هذا الاختلاف الكبير في بيانات التدريب يحفزنا على تعديل Whisper للتعامل مع مدخلات الفيديو. مستوحىً من Flamingo الذي يقوم بإدخال الخصائص البصرية في نماذج اللغة، نقترح Whisper-Flamingo الذي يدمج الخصائص البصرية في نموذج التعرف على الكلام والترجمة Whisper باستخدام الانتباه العرضي المحكوم (gated cross attention). حققت نماذجنا أحدث معدلات الخطأ في التعرف على الكلام السمعي (ASR WER) (0.68%) والتعرف على الكلام السمعي-البصري (AVSR WER) (0.76%) على LRS3، وأحدث معدلات الخطأ في التعرف على الكلام السمعي (1.3%) والتعرف على الكلام السمعي-البصري (1.4%) على LRS2. يعمل Whisper-Flamingo السمعي-البصري بشكل أفضل من Whisper السمعي فقط في التعرف على الكلام الإنجليزي وترجمة En-X لست لغات في ظروف صاخبة. بالإضافة إلى ذلك، يعد Whisper-Flamingo متعدد الاستخدامات ويقوم بتنفيذ جميع هذه المهام باستخدام مجموعة واحدة من المعلمات، بينما يتم تدريب الأساليب السابقة بشكل منفصل لكل لغة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp