Command Palette
Search for a command to run...
تحسين التعلم متعدد الوسائط باستخدام مدرسين أحادي الوسائط
تحسين التعلم متعدد الوسائط باستخدام مدرسين أحادي الوسائط
Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao
الملخص
يُعد تعلّم التمثيلات متعددة الوسائط خطوة أساسية نحو التطبيقات الروبوتية الواقعية، وقد تم تطوير العديد من نماذج دمج الوسائط المختلفة لتحقيق هذا الهدف. ومع ذلك، لاحظنا أن النماذج الحالية، التي تعتمد في أهدافها بشكل رئيسي على التدريب المشترك، تعاني غالبًا من تمثيلات ضعيفة لكل وسيلة من الوسائط. نُسمي هذه المشكلة "فشل الوسيلة"، ونفترض أن عدم التوازن بين الوسائط، بالإضافة إلى التحيز الضمني في الأهداف المشتركة المستخدمة في طرق الدمج، يمنع المُشَكِّلات (encoders) الخاصة بكل وسيلة من التعلم الكافي للسمات. ولحل هذه المشكلة، نقترح منهجًا جديدًا لتعلّم الوسائط المتعددة يُسمى Uni-Modal Teacher، والذي يجمع بين هدف الدمج وتمثيل الوسيلة الواحدة (uni-modal distillation) للتعامل مع مشكلة فشل الوسيلة. ونُظهر أن منهجنا لا يُحسّن بشكل كبير تمثيل كل وسيلة، بل يُحسّن أيضًا الأداء العام في المهام متعددة الوسائط. كما أن منهجنا يمكن تعميمه بكفاءة على معظم مناهج دمج الوسائط. وقد حققنا تحسنًا يزيد عن 3% في مهمة تصنيف الصوت والصورة VGGSound، بالإضافة إلى تحسين الأداء في مهمة تقسيم صور RGB-D على مجموعة بيانات NYU Depth V2.