منذ 11 أيام

ما مدى بُعدنا عن GPT-4V؟ إغلاق الفجوة مع النماذج متعددة الوسائط التجارية باستخدام حلول مفتوحة المصدر

Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao

عرض تفاصيل الورقة البحثية

ما مدى بُعدنا عن GPT-4V؟ إغلاق الفجوة مع النماذج متعددة الوسائط التجارية باستخدام حلول مفتوحة المصدر

الملخص

في هذا التقرير، نقدم نموذج InternVL 1.5، وهو نموذج لغوي كبير متعدد الوسائط (MLLM) مفتوح المصدر، يهدف إلى سد الفجوة في القدرات بين النماذج المفتوحة المصدر والنموذج التجارية المغلقة في مجال الفهم المتعدد الوسائط. نقدم ثلاث تحسينات بسيطة: (1) معالج بصري قوي: استكشفنا استراتيجية تعلم مستمر لنموذج أساس بصري كبير يُسمى InternViT-6B، مما يعزز من قدرات الفهم البصري، ويُمكّن من نقله واستخدامه مجددًا في نماذج لغوية كبيرة مختلفة. (2) دعم ديناميكي لدقة عالية: نقوم بتقسيم الصور إلى مربعات (تيلات) تتراوح بين 1 و40 مربعًا بحجم 448×448 بكسل، حسب نسبة العرض إلى الارتفاع ودقة الصورة المدخلة، مما يدعم إدخال صور بجودة تصل إلى 4K. (3) مجموعة بيانات ثنائية اللغة عالية الجودة: قمنا بجمع مجموعة بيانات ثنائية اللغة عالية الجودة تغطي مشاهد شائعة، وصور وثائق، مع تزويدها بأزواج أسئلة وأجوبة باللغة الإنجليزية والصينية، مما يعزز بشكل ملحوظ الأداء في المهام المتعلقة بالتعرف على النصوص (OCR) والمهام المتعلقة باللغة الصينية. تم تقييم InternVL 1.5 من خلال سلسلة من المعايير والدراسات المقارنة. ومقارنةً مع النماذج المفتوحة المصدر والنموذج التجارية، يُظهر InternVL 1.5 أداءً تنافسيًا، ويحقق نتائج رائدة في 8 من أصل 18 معيارًا. تم إصدار الكود المصدري على الرابط: https://github.com/OpenGVLab/InternVL.