3ヶ月前

CogVLM2:画像および動画理解のための視覚言語モデル

Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
CogVLM2:画像および動画理解のための視覚言語モデル
要約

VisualGLMおよびCogVLMを起点に、私たちは視覚言語融合の強化、高解像度化を実現する効率的なアーキテクチャ、さらには広範なモダリティと応用領域の拡張を目指して、視覚言語モデル(VLM)の研究を継続的に推進しています。本稿では、画像および動画理解を対象とした次世代視覚言語モデル「CogVLM2ファミリ」を提案します。このファミリには、画像理解用のCogVLM2、動画理解用のCogVLM2-Video、およびGLM-4Vが含まれます。CogVLM2は画像理解モデルとして、視覚専門アーキテクチャを継承しつつ、事前学習および微調整の両段階において改善された学習手法を採用しており、最大1344×1344ピクセルの入力解像度をサポートしています。一方、CogVLM2-Videoは動画理解モデルとして、複数フレームの入力にタイムスタンプを組み込み、自動的な時系列位置特定データ構築手法を提案しています。特に、CogVLM2ファミリはMMBench、MM-Vet、TextVQA、MVBench、VCGBenchなどのベンチマークにおいて、最先端の性能を達成しています。本研究で開発したすべてのモデルは、https://github.com/THUDM/CogVLM2 および https://github.com/THUDM/GLM-4 にてオープンソース化されており、分野全体の進展に貢献することを目的としています。