mPLUG-Owl3: نحو فهم التسلسلات الصورية الطويلة في النماذج الكبيرة متعددة الوسائط للغة

أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة في تنفيذ التعليمات المتعلقة بمجموعة متنوعة من المهام ذات الصورة الواحدة. وعلى الرغم من هذه التطورات، تظل هناك تحديات كبيرة في نمذجة التسلسلات الطويلة للصور. في هذه الدراسة، نقدّم النموذج متعدد الوسائط الكبير المرن، mPLUG-Owl3، الذي يُعزز القدرة على فهم التسلسلات الطويلة للصور في السياقات التي تتضمّن معرفة صورية-نصية مستخرجة، ودمجًا متداخلًا للصور والنصوص، ومقاطع فيديو طويلة. وبشكل خاص، نقترح كتل انتباه فائقة (hyper attention blocks) جديدة لدمج الرؤية واللغة بشكل فعّال في فضاء معنوي موجه باللغة، مما يُسهّل معالجة السيناريوهات متعددة الصور الممتدة. تشير النتائج التجريبية الواسعة إلى أن mPLUG-Owl3 يحقق أداءً من الدرجة الأولى بين النماذج ذات الحجم المماثل في اختبارات الصورة الواحدة، والصور المتعددة، ومقاطع الفيديو. علاوةً على ذلك، نقترح تقييمًا صعبًا للتسلسل البصري الطويل يُسمّى "مقاومة التشتيت" (Distractor Resistance) لتقييم قدرة النماذج على الحفاظ على التركيز وسط التشتت. وأخيرًا، وباستخدام البنية المقترحة، تُظهر mPLUG-Owl3 أداءً متميزًا في معالجة الإدخالات البصرية الطويلة جدًا. نأمل أن يسهم mPLUG-Owl3 في تطوير نماذج لغة كبيرة متعددة الوسائط أكثر كفاءة وقوة.