CogVLM2: نماذج اللغة البصرية لفهم الصور والفيديوهات

ابتداءً من VisualGLM وCogVLM، نواصل استكشاف النماذج البصرية واللغوية (VLMs) من أجل تحسين دمج الرؤية واللغة، وتصميم بنى فعّالة بذات دقة أعلى، وتوسيع نطاق الوسائط والتطبيقات. هنا نُقدّم عائلة CogVLM2، جيل جديد من النماذج البصرية واللغوية المُخصّصة لفهم الصور والفيديوهات، بما في ذلك CogVLM2 وCogVLM2-Video وGLM-4V. كنموذج لفهم الصور، يرث CogVLM2 هيكل الخبير البصري مع تحسينات في وصف التدريب خلال مراحل التدريب المسبق والتدرب اللاحق، ويُدعم بسعة إدخال تصل إلى 1344 × 1344 بكسل. أما كنموذج لفهم الفيديو، فإن CogVLM2-Video يدمج إدخالًا متعدد الإطارات مع توقيتات زمنية، ويعمل على اقتراح طريقة تلقائية لبناء بيانات التموضع الزمني. وبشكل لافت، حققت عائلة CogVLM2 نتائج رائدة على معايير مثل MMBench وMM-Vet وTextVQA وMVBench وVCGBench. وتم إتاحة جميع النماذج مفتوحة المصدر عبر الرابطين: https://github.com/THUDM/CogVLM2 وhttps://github.com/THUDM/GLM-4، ما يسهم في دفع عجلة التقدم في هذا المجال.