HyperAIHyperAI
منذ 17 أيام

توسيع حدود الأداء للنماذج متعددة الوسائط المفتوحة المصدر من خلال التوسع في النموذج والبيانات ووقت الاختبار

Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
توسيع حدود الأداء للنماذج متعددة الوسائط المفتوحة المصدر من خلال التوسع في النموذج والبيانات ووقت الاختبار
الملخص

نُقدّم InternVL 2.5، وهي سلسلة متقدمة من نماذج اللغة الكبيرة متعددة الوسائط (MLLM) تُبنى على أساس InternVL 2.0، مع الحفاظ على البنية الأساسية للنموذج، وتقديم تحسينات كبيرة في استراتيجيات التدريب والاختبار، بالإضافة إلى جودة البيانات. في هذا العمل، نستعرض العلاقة بين تكبير النموذج والأداء، ونستكشف بشكل منهجي اتجاهات الأداء في مُشفّرات الرؤية، والنماذج اللغوية، وحجوم المجموعات البيانات، وتكوينات الاختبار في وقت التشغيل. من خلال تقييمات واسعة النطاق على مجموعة متنوعة من المعايير، تشمل الاستدلال متعدد التخصصات، وفهم المستندات، وفهم الصور أو الفيديوهات المتعددة، والفهم في العالم الحقيقي، وكشف التحريفات متعددة الوسائط، والتموضع البصري، والقدرات متعددة اللغات، ومعالجة اللغة البحتة، تُظهر InternVL 2.5 أداءً تنافسيًا، وتتساوى مع النماذج التجارية الرائدة مثل GPT-4o وClaude-3.5-Sonnet. وتجدر الإشارة إلى أن نموذجنا هو أول نموذج مفتوح المصدر من نوع MLLM يتجاوز 70% في معيار MMMU، حيث حقق تحسنًا بنسبة 3.7 نقطة من خلال استخدام الاستدلال المتسلسل (Chain-of-Thought - CoT)، ويعكس إمكانات قوية للتوسع في وقت الاختبار. نأمل أن يُسهم هذا النموذج في تقدم المجتمع المفتوح المصدر من خلال وضع معايير جديدة لتطوير وتطبيق أنظمة الذكاء الاصطناعي متعددة الوسائط. عرض تجريبي على HuggingFace: https://huggingface.co/spaces/OpenGVLab/InternVL

توسيع حدود الأداء للنماذج متعددة الوسائط المفتوحة المصدر من خلال التوسع في النموذج والبيانات ووقت الاختبار | أحدث الأوراق البحثية | HyperAI