HyperAIHyperAI
منذ 15 أيام

النماذج التلقائية المقنعة للصوت والصورة

Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab
النماذج التلقائية المقنعة للصوت والصورة
الملخص

هل يمكننا الاستفادة من المعلومات الصوتية والبصرية الموجودة مسبقًا في الفيديو لتحسين التعلم التمثيلي التلقائي؟ وللإجابة على هذا السؤال، ندرس مجموعة متنوعة من هياكل التدريب المسبق وأهدافه ضمن إطار الترميز المُغطَّى (masked autoencoding)، مستندين إلى النجاح الذي حققته أساليب مشابهة في فهم اللغة الطبيعية والصور. ونُظهر أننا نستطيع تحقيق تحسينات كبيرة في المهام التصنيفية الصوتية والبصرية اللاحقة، متفوّقين على الحد الأقصى الحالي للأداء على مجموعتي البيانات VGGSound وAudioSet. علاوةً على ذلك، يمكننا استغلال خوارزميتنا للتدريب المسبق الصوتية والبصرية في عدد من المهام اللاحقة أحادية النمط باستخدام نموذج تدريب مسبق واحد يعتمد على الصوت والصورة معًا. كما نُثبت قابلية نقل تمثيلاتنا، حيث نحقق نتائج صوتية وبصرية متقدمة على مجموعة بيانات Epic Kitchens دون الحاجة إلى تدريب مسبق مخصص لهذه المجموعة.

النماذج التلقائية المقنعة للصوت والصورة | أحدث الأوراق البحثية | HyperAI