HyperAIHyperAI

Command Palette

Search for a command to run...

توسيع حدود الأداء للنماذج متعددة الوسائط مفتوحة المصدر من خلال التوسع في النموذج والبيانات ووقت الاختبار

الملخص

نُقدِّم نموذج InternVL 2.5، وهو سلسلة متقدمة من النماذج الكبيرة متعددة الوسائط (MLLM) تُبنى على أساس InternVL 2.0، مع الحفاظ على البنية الأساسية للنموذج، و同時 تُقدِّم تحسينات كبيرة في استراتيجيات التدريب والاختبار، جنبًا إلى جنب مع تحسين جودة البيانات. في هذا العمل، نتعمق في دراسة العلاقة بين تكبير النموذج (model scaling) والأداء، ونستعرض بشكل منهجي اتجاهات الأداء في مُشَفِّرات الرؤية، والنماذج اللغوية، وحجم مجموعات البيانات، وتكوينات الاختبار في مرحلة التقييم. من خلال تقييمات واسعة النطاق على مجموعة متنوعة من المعايير، تشمل التفكير التحليلي متعددة التخصصات، وفهم المستندات، وفهم الصور أو الفيديوهات متعددة، والفهم في البيئات الواقعية، وكشف التحريفات متعددة الوسائط، والربط البصري، والقدرات متعددة اللغات، ومعالجة اللغة البحتة، يُظهر InternVL 2.5 أداءً تنافسيًا، يوازي نماذج تجارية رائدة مثل GPT-4o وClaude-3.5-Sonnet. وتميّز نموذجنا بأنه أول نموذج مفتوح المصدر من نوع MLLM يتجاوز 70% في معيار MMMU، حيث حقق تحسنًا بنسبة 3.7 نقطة بفضل استخدام التفكير المتسلسل (Chain-of-Thought - CoT)، مما يُظهر إمكانات قوية للتوسع في مرحلة الاختبار. نتمنى أن يسهم هذا النموذج في تطوير المجتمع المفتوح المصدر من خلال وضع معايير جديدة لتطوير وتطبيق الأنظمة الذكية متعددة الوسائط.عرض تجريبي على HuggingFace: https://huggingface.co/spaces/OpenGVLab/InternVL


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
توسيع حدود الأداء للنماذج متعددة الوسائط مفتوحة المصدر من خلال التوسع في النموذج والبيانات ووقت الاختبار | مستندات | HyperAI