التعلم التمثيلي الصوتي البصري من خلال التعلم من النماذج الأساسية للصوت عبر التحويل المعرفي

إن تعلّم التمثيل الصوتي البصري يُعدّ أمرًا بالغ الأهمية لتطوير مهام معالجة الكلام متعددة الوسائط، مثل قراءة الشفاه وتمييز الكلام الصوتي البصري. في الآونة الأخيرة، أظهرت نماذج الأساس الصوتي (SFM) قدرات تعميم ملحوظة عبر مهام متعددة مرتبطة بالكلام. مستندين إلى هذا التقدم، نقترح نموذجًا لتعلّم التمثيل الصوتي البصري يستفيد من عملية تدريس المعرفة عبر الوسائط من نماذج الأساس الصوتي. في طريقة العمل هذه، تُستخدم نماذج الأساس الصوتي كمعلّمين، حيث يتم استخراج تمثيلات خفية متعددة الطبقات باستخدام إدخالات صوتية نظيفة. كما نقدّم أيضًا طريقة تجميع متعددة المعلّمين لتدريب الطالب، الذي يتلقى بيانات صوتية وبصرية كمدخلات. وتُستخدم خسارة جديدة لتدريس المعرفة التمثيلية لتدريب الطالب أثناء التدريب المسبق، وتُطبَّق هذه الخسارة أيضًا أثناء التخصيص الدقيق لتحسين الأداء في المهام اللاحقة. وقد استخدمت تجاربنا نموذجًا ذاتي التعلّم من أساس الصوتي، وهو WavLM، بالإضافة إلى نموذج مُعلّم من أساس الصوتي، وهو iFLYTEK-speech. أظهرت النتائج أن الطريقة المقترحة حققت أداءً متفوقًا أو على الأقل مماثلًا لأفضل النماذج السابقة في مهام التعرف التلقائي على الكلام، وتمييز الكلام البصري، والتعرف على الكلام الصوتي البصري. علاوة على ذلك، تم إجراء دراسات تحليلية شاملة، وتمت معاينة التمثيلات المُتعلّمة لتقييم فعالية الطريقة المقترحة.