HyperAIHyperAI
منذ 3 أشهر

CogVLM2: نماذج اللغة البصرية لفهم الصور والفيديوهات

Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
CogVLM2: نماذج اللغة البصرية لفهم الصور والفيديوهات
الملخص

ابتداءً من VisualGLM وCogVLM، نواصل استكشاف النماذج البصرية واللغوية (VLMs) من أجل تحسين دمج الرؤية واللغة، وتصميم بنى فعّالة بذات دقة أعلى، وتوسيع نطاق الوسائط والتطبيقات. هنا نُقدّم عائلة CogVLM2، جيل جديد من النماذج البصرية واللغوية المُخصّصة لفهم الصور والفيديوهات، بما في ذلك CogVLM2 وCogVLM2-Video وGLM-4V. كنموذج لفهم الصور، يرث CogVLM2 هيكل الخبير البصري مع تحسينات في وصف التدريب خلال مراحل التدريب المسبق والتدرب اللاحق، ويُدعم بسعة إدخال تصل إلى 1344 × 1344 بكسل. أما كنموذج لفهم الفيديو، فإن CogVLM2-Video يدمج إدخالًا متعدد الإطارات مع توقيتات زمنية، ويعمل على اقتراح طريقة تلقائية لبناء بيانات التموضع الزمني. وبشكل لافت، حققت عائلة CogVLM2 نتائج رائدة على معايير مثل MMBench وMM-Vet وTextVQA وMVBench وVCGBench. وتم إتاحة جميع النماذج مفتوحة المصدر عبر الرابطين: https://github.com/THUDM/CogVLM2 وhttps://github.com/THUDM/GLM-4، ما يسهم في دفع عجلة التقدم في هذا المجال.