MELTR: Meta Loss Transformer لتعلم تحسين نماذج الفيديو الأساسية

أظهرت النماذج الأساسية (الأساسية) أداءً متميزًا وقدرات تعميم عالية في مختلف المجالات. ومع ذلك، فإن معظم الدراسات حول هذه النماذج تركز بشكل أساسي على مرحلة التدريب المسبق، وتم اعتماد استراتيجية بسيطة لتصغير الخسارة الخاصة بالمهمة لغرض التعديل الدقيق. ومع ذلك، فإن مثل هذه طرق التعديل الدقيق لا تستفيد بشكل كامل من الخسائر الأخرى التي قد تكون مفيدة للمهمة المستهدفة. لذلك، نقترح استخدام وحدة MEta Loss TRansformer (MELTR)، وهي وحدة إضافية تقوم بتجميع دوال الخسارة المختلفة بطريقة غير خطية وتلقائية لمساعدة التعلم على المهمة المستهدفة عبر التعلم المساعد. نصيغ التعلم المساعد كمشكلة تحسين ثنائية المستوى ونقدم خوارزمية تحسين فعالة تعتمد على التفاضل الضمني التقريبي (AID). للتقدير، نطبق إطارنا على مجموعة متنوعة من نماذج الفيديو الأساسية (UniVL، Violet و All-in-one)، ونظهر زيادة كبيرة في الأداء في جميع المهام الأربعة اللاحقة: استرجاع الفيديو من النص، الإجابة على أسئلة الفيديو، كتابة تعليقات الفيديو، وتحليل المشاعر متعدد الوسائط. توضح تحليلاتنا النوعية أن MELTR تقوم بتحويل دوال الخسارة الفردية بشكل كافٍ وتذوبها في خسارة موحدة فعالة. يمكن الوصول إلى الكود في https://github.com/mlvlab/MELTR.