النماذج التلقائية المقنعة للصوت والصورة

هل يمكننا الاستفادة من المعلومات الصوتية والبصرية الموجودة مسبقًا في الفيديو لتحسين التعلم التمثيلي التلقائي؟ وللإجابة على هذا السؤال، ندرس مجموعة متنوعة من هياكل التدريب المسبق وأهدافه ضمن إطار الترميز المُغطَّى (masked autoencoding)، مستندين إلى النجاح الذي حققته أساليب مشابهة في فهم اللغة الطبيعية والصور. ونُظهر أننا نستطيع تحقيق تحسينات كبيرة في المهام التصنيفية الصوتية والبصرية اللاحقة، متفوّقين على الحد الأقصى الحالي للأداء على مجموعتي البيانات VGGSound وAudioSet. علاوةً على ذلك، يمكننا استغلال خوارزميتنا للتدريب المسبق الصوتية والبصرية في عدد من المهام اللاحقة أحادية النمط باستخدام نموذج تدريب مسبق واحد يعتمد على الصوت والصورة معًا. كما نُثبت قابلية نقل تمثيلاتنا، حيث نحقق نتائج صوتية وبصرية متقدمة على مجموعة بيانات Epic Kitchens دون الحاجة إلى تدريب مسبق مخصص لهذه المجموعة.