2ヶ月前

CogAgent: GUIエージェントのための視覚言語モデル

Wenyi Hong; Weihan Wang; Qingsong Lv; Jiazheng Xu; Wenmeng Yu; Junhui Ji; Yan Wang; Zihan Wang; Yuxuan Zhang; Juanzi Li; Bin Xu; Yuxiao Dong; Ming Ding; Jie Tang

論文の詳細を見る

要約

人々はグラフィカルユーザーインターフェース（GUI）を通じてデジタル機器に多大な時間を費やしています。例えば、コンピューターやスマートフォンの画面です。大規模言語モデル（LLM）であるChatGPTは、メール作成などのタスクを支援することができますが、GUIの理解と対話には苦戦し、自動化レベルの向上が制限されています。本論文では、GUIの理解とナビゲーションに特化した180億パラメータを持つ視覚言語モデル（VLM）であるCogAgentを紹介します。低解像度および高解像度の画像エンコーダーを活用することで、CogAgentは1120×1120ピクセルの解像度での入力をサポートし、小さなページ要素やテキストを認識することができます。汎用的な視覚言語モデルとして、CogAgentは5つのテキスト豊富なベンチマークと4つの一般的なVQAベンチマークで最先端の性能を達成しており、これらにはVQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPEが含まれます。CogAgentはスクリーンショットのみを使用して入力を行うことで、抽出されたHTMLテキストを消費するLLMベースの方法よりもPCとAndroidのGUIナビゲーションタスクにおいて優れた性能を発揮し、Mind2WebとAITWで最先端の成果を更新しました。本モデルおよびコードはhttps://github.com/THUDM/CogVLMで公開されており、新しいバージョンのCogAgent-9B-20241220はhttps://github.com/THUDM/CogAgentで利用可能です。