HyperAIHyperAI

Command Palette

Search for a command to run...

ASR هو كل ما تحتاجه: التبديد عبر الوسائط لقراءة الشفاه

Triantafyllos Afouras Joon Son Chung Andrew Zisserman

الملخص

الهدف من هذا العمل هو تدريب نماذج قوية لتمييز الكلام المرئي دون الحاجة إلى بيانات حقيقية مُعلَّمة يدويًا. نحقّق هذا الهدف من خلال عملية الاستخلاص (distillation) من نموذج لتمييز الكلام التلقائي (ASR) الذي تم تدريبه على مجموعة بيانات صوتية كبيرة الحجم فقط. نستخدم طريقة استخلاص متعددة الوسائط (cross-modal distillation) تدمج بين التصنيف الزمني الاتصالي (Connectionist Temporal Classification - CTC) وخسارة الترددات (frame-wise cross-entropy loss). تتمثل مساهماتنا في أربعة جوانب: (i) نُظهر أن الترجمات الحقيقية لا تُعدّ ضرورية لتدريب نظام قراءة الشفاه؛ (ii) نُظهر كيف يمكن استغلال كميات غير محدودة من بيانات الفيديو غير المُعلَّمة لتحسين الأداء؛ (iii) نُثبت أن عملية الاستخلاص تُسرّع بشكل كبير من عملية التدريب؛ و(iv) نحقق نتائج على مستوى الحد الأقصى (state-of-the-art) على مجموعتي البيانات الصعبتين LRS2 وLRS3، مع التدريب فقط على بيانات متاحة للعامة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp