mPLUG: تعلّم مرئي-لغوي فعّال وكفؤ من خلال روابط تخطّي عبر الوسائط

أصبحت النماذج الأساسية المُدرّبة على نطاق واسع ظاهرة متزايدة في بناء أنظمة الذكاء الاصطناعي (AI)، والتي يمكن تكييفها بسرعة لعدد واسع من المهام اللاحقة. يقدّم هذا البحث نموذج mPLUG، وهو نموذج جديد للغة والرؤية يهدف إلى الفهم والتكوين عبر الوسائط المتعددة. تعاني معظم النماذج المُدرّبة مسبقًا من مشكلات تتعلق بفعالية الحوسبة المنخفضة، وانعدام التوازن في المعلومات الناتج عن التسلسل البصري الطويل في عملية التماثل عبر الوسائط. لحل هذه المشكلات، يقدّم mPLUG معمارية فعّالة وفعالة من حيث الحوسبة للغة والرؤية، تشمل روابط عرضية مبتكرة عبر الوسائط، تُنشئ مسارات مباشرة بين الطبقات، وتتجاوز عددًا معينًا من الطبقات لتفادي عملية الانتباه الذاتي الكامل الطويلة الأمد على الجانب البصري. تم تدريب mPLUG بشكل كامل (end-to-end) على أزواج كبيرة من الصور والنصوص، باستخدام أهداف تمييزية وإنشائية في آنٍ واحد. وحقّق mPLUG نتائج متميزة على مجموعة واسعة من المهام اللاحقة للغة والرؤية، مثل توليد عناوين الصور، واسترجاع الصور والنصوص، والتموضع البصري، والإجابة على الأسئلة البصرية. كما أظهر mPLUG قدرة قوية على التحويل الصفرية (zero-shot transferability) عند نقله مباشرة إلى عدة مهام متعددة عبر الفيديو واللغة.