منذ 6 أشهر

الملخص

الهدف من هذا العمل هو تدريب نماذج قوية لتمييز الكلام المرئي دون الحاجة إلى بيانات حقيقية مُعلَّمة يدويًا. نحقّق هذا الهدف من خلال عملية الاستخلاص (distillation) من نموذج لتمييز الكلام التلقائي (ASR) الذي تم تدريبه على مجموعة بيانات صوتية كبيرة الحجم فقط. نستخدم طريقة استخلاص متعددة الوسائط (cross-modal distillation) تدمج بين التصنيف الزمني الاتصالي (Connectionist Temporal Classification - CTC) وخسارة الترددات (frame-wise cross-entropy loss). تتمثل مساهماتنا في أربعة جوانب: (i) نُظهر أن الترجمات الحقيقية لا تُعدّ ضرورية لتدريب نظام قراءة الشفاه؛ (ii) نُظهر كيف يمكن استغلال كميات غير محدودة من بيانات الفيديو غير المُعلَّمة لتحسين الأداء؛ (iii) نُثبت أن عملية الاستخلاص تُسرّع بشكل كبير من عملية التدريب؛ و(iv) نحقق نتائج على مستوى الحد الأقصى (state-of-the-art) على مجموعتي البيانات الصعبتين LRS2 وLRS3، مع التدريب فقط على بيانات متاحة للعامة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار