مونو-إنترنVL-1.5: نحو نماذج لغوية متعددة الوسائط أرخص وأسرع بشكل مونوليتيكي

يركز هذا البحث على نماذج اللغة الكبيرة متعددة الوسائط المونوليثية (Monolithic Multimodal Large Language Models - MLLMs)، والتي تدمج الترميز البصري وفك شفرة اللغة في نموذج واحد. تعاني الهياكل والاستراتيجيات الحالية للتدريب المسبق لـ MLLMs المونوليثية غالبًا من عدم استقرار التحسين والنسيان الكارثي. لمعالجة هذه التحديات، فإن الفكرة الرئيسية لدينا هي غرس فضاء معلمة بصري جديد في نموذج لغة كبير تم تدريبه مسبقًا، مما يمكّن من تعلم مستقر للمعرفة البصرية من البيانات الضوضائية عبر ضبط الدلتا. بناءً على هذا المبدأ، نقدم أولاً Mono-InternVL، وهو نموذج MLLM مونوليثي متقدم يدمج مجموعة من الخبراء البصريين من خلال هندسة خليط متعدد الوسائط (Multimodal Mixture-of-Experts Architecture). بالإضافة إلى ذلك، صممنا طريقة تدريب بصري ذاتي مبتكرة (Endogenous Visual Pre-training - EViP) لمونو-إنترنVL لتعظيم قدراته البصرية عبر التعلم التدريجي. يحقق Mono-InternVL أداءً تنافسيًا مقابل النماذج MLLM الحالية ولكنه يؤدي أيضًا إلى زيادة نسبية في تكلفة البيانات. لذلك، نقدم أيضًا Mono-InternVL-1.5، وهو نموذج MLLM مونوليثي أرخص وأقوى مجهز بـ EViP المحسن (EViP++). يُدخل EViP++ خبراء انتباه بصري إضافيين إلى Mono-InternVL-1.5 ويعيد تنظيم عملية التدريب المسبق بطريقة فعالة. أثناء الاستدلال، يتضمن حزمة CUDA مدمجة لتسريع عمليات MoE الخاصة به. بهذه التصميمات، يتمكن Mono-InternVL-1.5 من تقليص تكاليف التدريب والاستدلال بشكل كبير مع الاحتفاظ بأداء تنافسي مع Mono-InternVL. لتقييم منهجيتنا، أجرينا تجارب واسعة النطاق على 15 مقاييس أداء. بينت النتائج أن Mono-InternVL يتفوق على النماذج MLLM المونوليثية الحالية في 12 من أصل 15 مقاييس الأداء، مثل تحقيق تحسن بمقدار 114 نقطة على OCRBench بالمقارنة مع Emu3. بالمقارنة مع نظيره القابل للتركيب، أي InternVL-1.5، يحقق Mono-InternVL-1.5 أداءً متعدد الوسائط مشابهًا بينما يقلل من زمن الاستجابة الأولي بنسبة تصل إلى 69٪. تم إطلاق الشفرة والنماذج على https://github.com/OpenGVLab/Mono-InternVL.