MaMMUT: معمارية بسيطة للتعلم المشترك للمهام متعددة الوسائط

تطور نماذج اللغة قد انتقل من التصميمات القائمة على المُشفِّر-المُفكِّك إلى التصميمات القائمة فقط على المُفكِّك. بالإضافة إلى ذلك، نلاحظ أن المهمتين المتعدّدتي الوسائط الأكثر شيوعًا، وهما المهام التوليدية والمقابلة، صعب تضمينهما في هيكل واحد بشكل غير معقد، كما يتطلب الأمر تعديلات إضافية لتطبيقات المهام اللاحقة. نقترح نموذجًا جديدًا للتدريب باستخدام نموذج قائمة على المُفكِّك لمهام متعدّدة الوسائط، وهو نموذج فعّال بشكل مفاجئ في التعلّم المشترك لهذه المهام البصرية-اللغوية المتنوعة. يتم ذلك عبر نموذج بسيط يُسمّى MaMMUT، يتكون من مُشفِّر بصري واحد وفكّاك نصي، ويُمكنه تقبّل التعلّم المقابل والتوظيفي من خلال نهج مزدوج للمرور عبر الفكّاك النصي. نُظهر أن التعلّم المشترك لهذه الأهداف المتنوعة بسيط وفعّال، ويُعزّز إلى أقصى حد ممكن مشاركة الأوزان في النموذج عبر هذه المهام. علاوةً على ذلك، يتيح نفس الهيكل تمديدات مباشرة لمهام كشف الكائنات ذات المفردات المفتوحة ومهام الفيديو-اللغة. ويُعالج النموذج مجموعة متنوعة من المهام، مع الحفاظ على حجم محدود. ويحقق النموذج أداءً متقدّمًا على مستوى الحالة الحالية في مهام استرجاع الصور-النصوص والنصوص-الصور، والإجابة على الأسئلة حول الفيديو، وكشف الكائنات ذات المفردات المفتوحة، متفوّقًا على نماذج أساسية أكبر بكثير وأكثر تدريبًا تدريبًا مكثّفًا. كما يُظهر نتائج تنافسية جدًا في مهام الإجابة على الأسئلة حول الصور (VQA) ووصف الفيديو (Video Captioning)، خصوصًا بالنظر إلى حجمه. وتؤكد الدراسات التحليلية (Ablations) المرونة والفوائد المتميزة لنهجنا.