Command Palette
Search for a command to run...
CogVLM2:画像および動画理解のための視覚言語モデル
CogVLM2:画像および動画理解のための視覚言語モデル
概要
VisualGLMやCogVLMに続き、私たちは視覚言語統合の高度化、高解像度な効率的アーキテクチャ、さらには広範なモダリティと応用分野の実現を目指し、VLM(視覚言語モデル)の研究を継続的に推進しています。本稿では、画像および動画理解を対象とした次世代視覚言語モデル「CogVLM2ファミリ」を提案します。本ファミリには、CogVLM2、CogVLM2-Video、GLM-4Vの3モデルが含まれます。画像理解用モデルとしてのCogVLM2は、視覚専門アーキテクチャを継承しつつ、事前学習および微調整の両段階で改善された学習手法を採用しており、最大1344×1344ピクセルの入力解像度をサポートします。動画理解用モデルとしてのCogVLM2-Videoは、複数フレームの入力に時刻情報(タイムスタンプ)を統合し、自動時系列局所化データの構築手法を提案しています。特に、MMBench、MM-Vet、TextVQA、MVBench、VCGBenchなどのベンチマークにおいて、本ファミリは最先端の性能を達成しています。これらのモデルはすべて、https://github.com/THUDM/CogVLM2 および https://github.com/THUDM/GLM-4 にてオープンソース化されており、分野の発展に貢献しています。