ما مدى بُعدنا عن GPT-4V؟ إغلاق الفجوة مع النماذج متعددة الوسائط التجارية باستخدام حلول مفتوحة المصدر

في هذا التقرير، نقدم نموذج InternVL 1.5، وهو نموذج لغوي كبير متعدد الوسائط (MLLM) مفتوح المصدر، يهدف إلى سد الفجوة في القدرات بين النماذج المفتوحة المصدر والنموذج التجارية المغلقة في مجال الفهم المتعدد الوسائط. نقدم ثلاث تحسينات بسيطة: (1) معالج بصري قوي: استكشفنا استراتيجية تعلم مستمر لنموذج أساس بصري كبير يُسمى InternViT-6B، مما يعزز من قدرات الفهم البصري، ويُمكّن من نقله واستخدامه مجددًا في نماذج لغوية كبيرة مختلفة. (2) دعم ديناميكي لدقة عالية: نقوم بتقسيم الصور إلى مربعات (تيلات) تتراوح بين 1 و40 مربعًا بحجم 448×448 بكسل، حسب نسبة العرض إلى الارتفاع ودقة الصورة المدخلة، مما يدعم إدخال صور بجودة تصل إلى 4K. (3) مجموعة بيانات ثنائية اللغة عالية الجودة: قمنا بجمع مجموعة بيانات ثنائية اللغة عالية الجودة تغطي مشاهد شائعة، وصور وثائق، مع تزويدها بأزواج أسئلة وأجوبة باللغة الإنجليزية والصينية، مما يعزز بشكل ملحوظ الأداء في المهام المتعلقة بالتعرف على النصوص (OCR) والمهام المتعلقة باللغة الصينية. تم تقييم InternVL 1.5 من خلال سلسلة من المعايير والدراسات المقارنة. ومقارنةً مع النماذج المفتوحة المصدر والنموذج التجارية، يُظهر InternVL 1.5 أداءً تنافسيًا، ويحقق نتائج رائدة في 8 من أصل 18 معيارًا. تم إصدار الكود المصدري على الرابط: https://github.com/OpenGVLab/InternVL.