Command Palette
Search for a command to run...
توسيع حدود الأداء للنماذج متعددة الوسائط مفتوحة المصدر من خلال التوسع في النموذج والبيانات ووقت الاختبار
توسيع حدود الأداء للنماذج متعددة الوسائط مفتوحة المصدر من خلال التوسع في النموذج والبيانات ووقت الاختبار
الملخص
نُقدِّم نموذج InternVL 2.5، وهو سلسلة متقدمة من النماذج الكبيرة متعددة الوسائط (MLLM) تُبنى على أساس InternVL 2.0، مع الحفاظ على البنية الأساسية للنموذج، و同時 تُقدِّم تحسينات كبيرة في استراتيجيات التدريب والاختبار، جنبًا إلى جنب مع تحسين جودة البيانات. في هذا العمل، نتعمق في دراسة العلاقة بين تكبير النموذج (model scaling) والأداء، ونستعرض بشكل منهجي اتجاهات الأداء في مُشَفِّرات الرؤية، والنماذج اللغوية، وحجم مجموعات البيانات، وتكوينات الاختبار في مرحلة التقييم. من خلال تقييمات واسعة النطاق على مجموعة متنوعة من المعايير، تشمل التفكير التحليلي متعددة التخصصات، وفهم المستندات، وفهم الصور أو الفيديوهات متعددة، والفهم في البيئات الواقعية، وكشف التحريفات متعددة الوسائط، والربط البصري، والقدرات متعددة اللغات، ومعالجة اللغة البحتة، يُظهر InternVL 2.5 أداءً تنافسيًا، يوازي نماذج تجارية رائدة مثل GPT-4o وClaude-3.5-Sonnet. وتميّز نموذجنا بأنه أول نموذج مفتوح المصدر من نوع MLLM يتجاوز 70% في معيار MMMU، حيث حقق تحسنًا بنسبة 3.7 نقطة بفضل استخدام التفكير المتسلسل (Chain-of-Thought - CoT)، مما يُظهر إمكانات قوية للتوسع في مرحلة الاختبار. نتمنى أن يسهم هذا النموذج في تطوير المجتمع المفتوح المصدر من خلال وضع معايير جديدة لتطوير وتطبيق الأنظمة الذكية متعددة الوسائط.عرض تجريبي على HuggingFace: https://huggingface.co/spaces/OpenGVLab/InternVL