mPLUG-Owl2: ثورة في النماذج اللغوية الكبيرة متعددة الوسائط من خلال التعاون بين الوسائط

أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات مُلهمة في تنفيذ المهام المفتوحة في مجالات متنوعة. ومع ذلك، ركزت الطرق السابقة بشكل رئيسي على تحسين القدرات متعددة الوسائط. في هذا العمل، نقدم نموذجًا متعدد الوسائط مرنًا وقويًا يُسمى mPLUG-Owl2، الذي يستفيد بفعالية من التعاون بين الوسائط لتحسين الأداء في المهام النصية والمهام متعددة الوسائط على حد سواء. يعتمد mPLUG-Owl2 على تصميم شبكة مُقسّمة إلى وحدات، حيث تؤدي وحدة فك التشفير النصي دور واجهة عالمية لإدارة الوسائط المختلفة. وبشكل خاص، يدمج mPLUG-Owl2 وحدات وظيفية مشتركة لتسهيل التعاون بين الوسائط، كما يُدخل وحدة مُعدّلة حسب الوسيط (modality-adaptive module) تُحافظ على الخصائص المميزة لكل وسائط. تُظهر التجارب الواسعة أن mPLUG-Owl2 قادر على التعميم في المهام النصية والمهام متعددة الوسائط، وتحقيق أداءً متفوقًا على مستوى الحد الأقصى باستخدام نموذج عام واحد. وتجدر الإشارة إلى أن mPLUG-Owl2 هو أول نموذج MLLM يُظهر ظاهرة التعاون بين الوسائط في كل من السيناريوهات النصية النقية والسيناريوهات متعددة الوسائط، مما يُمهد الطريق الريادي لتطوير النماذج الأساسية متعددة الوسائط في المستقبل.