2ヶ月前

CogAgent: GUIエージェントのための視覚言語モデル

Wenyi Hong; Weihan Wang; Qingsong Lv; Jiazheng Xu; Wenmeng Yu; Junhui Ji; Yan Wang; Zihan Wang; Yuxuan Zhang; Juanzi Li; Bin Xu; Yuxiao Dong; Ming Ding; Jie Tang
CogAgent: GUIエージェントのための視覚言語モデル
要約

人々はグラフィカルユーザーインターフェース(GUI)を通じてデジタル機器に多大な時間を費やしています。例えば、コンピューターやスマートフォンの画面です。大規模言語モデル(LLM)であるChatGPTは、メール作成などのタスクを支援することができますが、GUIの理解と対話には苦戦し、自動化レベルの向上が制限されています。本論文では、GUIの理解とナビゲーションに特化した180億パラメータを持つ視覚言語モデル(VLM)であるCogAgentを紹介します。低解像度および高解像度の画像エンコーダーを活用することで、CogAgentは1120×1120ピクセルの解像度での入力をサポートし、小さなページ要素やテキストを認識することができます。汎用的な視覚言語モデルとして、CogAgentは5つのテキスト豊富なベンチマークと4つの一般的なVQAベンチマークで最先端の性能を達成しており、これらにはVQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPEが含まれます。CogAgentはスクリーンショットのみを使用して入力を行うことで、抽出されたHTMLテキストを消費するLLMベースの方法よりもPCとAndroidのGUIナビゲーションタスクにおいて優れた性能を発揮し、Mind2WebとAITWで最先端の成果を更新しました。本モデルおよびコードはhttps://github.com/THUDM/CogVLMで公開されており、新しいバージョンのCogAgent-9B-20241220はhttps://github.com/THUDM/CogAgentで利用可能です。

CogAgent: GUIエージェントのための視覚言語モデル | 最新論文 | HyperAI超神経