HyperAIHyperAI

Command Palette

Search for a command to run...

CogVLM2:画像および動画理解のための視覚言語モデル

概要

VisualGLMやCogVLMに続き、私たちは視覚言語統合の高度化、高解像度な効率的アーキテクチャ、さらには広範なモダリティと応用分野の実現を目指し、VLM(視覚言語モデル)の研究を継続的に推進しています。本稿では、画像および動画理解を対象とした次世代視覚言語モデル「CogVLM2ファミリ」を提案します。本ファミリには、CogVLM2、CogVLM2-Video、GLM-4Vの3モデルが含まれます。画像理解用モデルとしてのCogVLM2は、視覚専門アーキテクチャを継承しつつ、事前学習および微調整の両段階で改善された学習手法を採用しており、最大1344×1344ピクセルの入力解像度をサポートします。動画理解用モデルとしてのCogVLM2-Videoは、複数フレームの入力に時刻情報(タイムスタンプ)を統合し、自動時系列局所化データの構築手法を提案しています。特に、MMBench、MM-Vet、TextVQA、MVBench、VCGBenchなどのベンチマークにおいて、本ファミリは最先端の性能を達成しています。これらのモデルはすべて、https://github.com/THUDM/CogVLM2 および https://github.com/THUDM/GLM-4 にてオープンソース化されており、分野の発展に貢献しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CogVLM2:画像および動画理解のための視覚言語モデル | 記事 | HyperAI超神経