HyperAIHyperAI

Command Palette

Search for a command to run...

CogAgent: GUIエージェントのための視覚言語モデル

概要

人々はグラフィカルユーザーインターフェース(GUI)を通じてデジタル機器に多大な時間を費やしています。例えば、コンピューターやスマートフォンの画面です。大規模言語モデル(LLM)であるChatGPTは、メール作成などのタスクを支援することができますが、GUIの理解と対話には苦戦し、自動化レベルの向上が制限されています。本論文では、GUIの理解とナビゲーションに特化した180億パラメータを持つ視覚言語モデル(VLM)であるCogAgentを紹介します。低解像度および高解像度の画像エンコーダーを活用することで、CogAgentは1120×1120ピクセルの解像度での入力をサポートし、小さなページ要素やテキストを認識することができます。汎用的な視覚言語モデルとして、CogAgentは5つのテキスト豊富なベンチマークと4つの一般的なVQAベンチマークで最先端の性能を達成しており、これらにはVQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPEが含まれます。CogAgentはスクリーンショットのみを使用して入力を行うことで、抽出されたHTMLテキストを消費するLLMベースの方法よりもPCとAndroidのGUIナビゲーションタスクにおいて優れた性能を発揮し、Mind2WebとAITWで最先端の成果を更新しました。本モデルおよびコードはhttps://github.com/THUDM/CogVLMで公開されており、新しいバージョンのCogAgent-9B-20241220はhttps://github.com/THUDM/CogAgentで利用可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CogAgent: GUIエージェントのための視覚言語モデル | 記事 | HyperAI超神経