مُشغِّل الترميز الذاتي السمعي البصري المُقابِل

في هذا البحث، نوسع أولاً نموذج الترميز الآلي المقنّع (MAE) الحديث من وسيلة واحدة إلى وسائط متعددة سمعية وبصرية. ثم نقترح نموذج الترميز الآلي المقنّع السمعي البصري المقارن (CAV-MAE) من خلال دمج تعلم التباين والنمذجة البيانات المقنّعة، وهما إطاران رئيسيان للتعلم الذاتي بدون إشراف، لتعلم تمثيل سمعي بصري مشترك ومنسق. تظهر تجاربنا أن هدف تعلم التوافق السمعي البصري المقارن لا يمكّن النموذج فقط من أداء مهام الاسترجاع السمعي البصري، بل يساعد أيضًا في تعلم تمثيل مشترك أفضل. نتيجة لذلك، حقق نموذج CAV-MAE الذي تم تدريبه بشكل ذاتي بالكامل دقة جديدة قياسية تبلغ 65.9٪ على مجموعة بيانات VGGSound، وهو مكافئ لأفضل نموذج تم تدريبه بإشراف سابق على مجموعة بيانات AudioSet في مهمة تصنيف الأحداث السمعية البصرية. يمكن الوصول إلى الكود والنموذج المدرب مسبقًا عبر الرابط: https://github.com/yuangongnd/cav-mae.