MMRL: التعلم التمثيلي متعدد الوسائط للنماذج البصرية-اللغوية

أصبحت النماذج الكبيرة المُدرَّبة مسبقًا للرؤية واللغة (VLMs) ضرورية لتعلم النقل عبر مهام متنوعة. ومع ذلك، فإن تكييف هذه النماذج باستخدام بيانات قليلة محدودة غالبًا ما يؤدي إلى التعلُّم الزائد (overfitting)، مما يقلل من أدائها على المهام الجديدة. لمعالجة هذه المشكلة، نقترح إطارًا جديدًا لتعلم التمثيل متعدد الوسائط (MMRL) يُقدّم فضاء تمثيلي مشترك قابل للتعلُّم وعَديم الاعتماد على الوسيلة (modality-agnostic). يقوم MMRL بتحويل رموز المساحة إلى رموز تمثيلية نصية وصورية، مما يُسهِّل تفاعلات متعددة الوسائط بشكل أكثر فعالية. على عكس النهج السابقة التي تُركِّز فقط على تحسين خصائص رمز الفئة، يدمج MMRL رموز التمثيل في الطبقات العليا من المُشفِّرات — حيث تكون السمات المحددة للمجموعة أكثر بروزًا — مع الحفاظ على المعرفة العامة في الطبقات الدنيا. أثناء التدريب، يتم تحسين كل من خصائص التمثيل وخصائص الفئة، مع تطبيق طبقة تحوير قابلة للتدريب على رموز التمثيل، في حين تبقى طبقة التحويل الخاصة برمز الفئة ثابتة (frozen) للحفاظ على المعرفة المُدرَّبة مسبقًا. علاوة على ذلك، يُضاف حدٌ تنظيمي لمحاذاة خصائص الفئة مع خصائص النص مع الخصائص الصفرية (zero-shot) المستمدة من نموذج VLM الثابت، وبالتالي حماية قدرة النموذج على التعميم. في مرحلة الاستنتاج، يُطبَّق استراتيجية فصل (decoupling)، حيث تُستخدم كلاً من خصائص التمثيل وخصائص الفئة للصفوف الأساسية، بينما تُستخدم فقط خصائص الفئة — التي تحتفظ بمعرفة أكثر عامة — للوظائف الجديدة. أظهرت تجارب واسعة النطاق على 15 مجموعة بيانات أن MMRL يتفوّق على أحدث الطرق، ويحقق توازنًا متوازنًا بين التكيُّف المخصص للمهمة والقدرة على التعميم. يمكن الوصول إلى الكود عبر الرابط: https://github.com/yunncheng/MMRL.