HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG-Owl3: نحو فهم التسلسلات الصورية الطويلة في النماذج الكبيرة متعددة الوسائط للغة

Jiabo Ye Haiyang Xu Haowei Liu Anwen Hu Ming Yan Qi Qian Ji Zhang Fei Huang Jingren Zhou

الملخص

أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة في تنفيذ التعليمات المتعلقة بمجموعة متنوعة من المهام ذات الصورة الواحدة. وعلى الرغم من هذه التطورات، تظل هناك تحديات كبيرة في نمذجة التسلسلات الطويلة للصور. في هذه الدراسة، نقدّم النموذج متعدد الوسائط الكبير المرن، mPLUG-Owl3، الذي يُعزز القدرة على فهم التسلسلات الطويلة للصور في السياقات التي تتضمّن معرفة صورية-نصية مستخرجة، ودمجًا متداخلًا للصور والنصوص، ومقاطع فيديو طويلة. وبشكل خاص، نقترح كتل انتباه فائقة (hyper attention blocks) جديدة لدمج الرؤية واللغة بشكل فعّال في فضاء معنوي موجه باللغة، مما يُسهّل معالجة السيناريوهات متعددة الصور الممتدة. تشير النتائج التجريبية الواسعة إلى أن mPLUG-Owl3 يحقق أداءً من الدرجة الأولى بين النماذج ذات الحجم المماثل في اختبارات الصورة الواحدة، والصور المتعددة، ومقاطع الفيديو. علاوةً على ذلك، نقترح تقييمًا صعبًا للتسلسل البصري الطويل يُسمّى "مقاومة التشتيت" (Distractor Resistance) لتقييم قدرة النماذج على الحفاظ على التركيز وسط التشتت. وأخيرًا، وباستخدام البنية المقترحة، تُظهر mPLUG-Owl3 أداءً متميزًا في معالجة الإدخالات البصرية الطويلة جدًا. نأمل أن يسهم mPLUG-Owl3 في تطوير نماذج لغة كبيرة متعددة الوسائط أكثر كفاءة وقوة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp