توسيع حدود الأداء للنماذج متعددة الوسائط المفتوحة المصدر من خلال التوسع في النموذج والبيانات ووقت الاختبار

نُقدّم InternVL 2.5، وهي سلسلة متقدمة من نماذج اللغة الكبيرة متعددة الوسائط (MLLM) تُبنى على أساس InternVL 2.0، مع الحفاظ على البنية الأساسية للنموذج، وتقديم تحسينات كبيرة في استراتيجيات التدريب والاختبار، بالإضافة إلى جودة البيانات. في هذا العمل، نستعرض العلاقة بين تكبير النموذج والأداء، ونستكشف بشكل منهجي اتجاهات الأداء في مُشفّرات الرؤية، والنماذج اللغوية، وحجوم المجموعات البيانات، وتكوينات الاختبار في وقت التشغيل. من خلال تقييمات واسعة النطاق على مجموعة متنوعة من المعايير، تشمل الاستدلال متعدد التخصصات، وفهم المستندات، وفهم الصور أو الفيديوهات المتعددة، والفهم في العالم الحقيقي، وكشف التحريفات متعددة الوسائط، والتموضع البصري، والقدرات متعددة اللغات، ومعالجة اللغة البحتة، تُظهر InternVL 2.5 أداءً تنافسيًا، وتتساوى مع النماذج التجارية الرائدة مثل GPT-4o وClaude-3.5-Sonnet. وتجدر الإشارة إلى أن نموذجنا هو أول نموذج مفتوح المصدر من نوع MLLM يتجاوز 70% في معيار MMMU، حيث حقق تحسنًا بنسبة 3.7 نقطة من خلال استخدام الاستدلال المتسلسل (Chain-of-Thought - CoT)، ويعكس إمكانات قوية للتوسع في وقت الاختبار. نأمل أن يُسهم هذا النموذج في تقدم المجتمع المفتوح المصدر من خلال وضع معايير جديدة لتطوير وتطبيق أنظمة الذكاء الاصطناعي متعددة الوسائط. عرض تجريبي على HuggingFace: https://huggingface.co/spaces/OpenGVLab/InternVL