HyperAIHyperAI
منذ 10 أيام

ASR هو كل ما تحتاجه: التبديد عبر الوسائط لقراءة الشفاه

Triantafyllos Afouras, Joon Son Chung, Andrew Zisserman
ASR هو كل ما تحتاجه: التبديد عبر الوسائط لقراءة الشفاه
الملخص

الهدف من هذا العمل هو تدريب نماذج قوية لتمييز الكلام المرئي دون الحاجة إلى بيانات حقيقية مُعلَّمة يدويًا. نحقّق هذا الهدف من خلال عملية الاستخلاص (distillation) من نموذج لتمييز الكلام التلقائي (ASR) الذي تم تدريبه على مجموعة بيانات صوتية كبيرة الحجم فقط. نستخدم طريقة استخلاص متعددة الوسائط (cross-modal distillation) تدمج بين التصنيف الزمني الاتصالي (Connectionist Temporal Classification - CTC) وخسارة الترددات (frame-wise cross-entropy loss). تتمثل مساهماتنا في أربعة جوانب: (i) نُظهر أن الترجمات الحقيقية لا تُعدّ ضرورية لتدريب نظام قراءة الشفاه؛ (ii) نُظهر كيف يمكن استغلال كميات غير محدودة من بيانات الفيديو غير المُعلَّمة لتحسين الأداء؛ (iii) نُثبت أن عملية الاستخلاص تُسرّع بشكل كبير من عملية التدريب؛ و(iv) نحقق نتائج على مستوى الحد الأقصى (state-of-the-art) على مجموعتي البيانات الصعبتين LRS2 وLRS3، مع التدريب فقط على بيانات متاحة للعامة.

ASR هو كل ما تحتاجه: التبديد عبر الوسائط لقراءة الشفاه | أحدث الأوراق البحثية | HyperAI