2ヶ月前
GUICourse: 一般的ビジョン言語モデルから多機能GUIエージェントへ
Chen, Wentong ; Cui, Junbo ; Hu, Jinyi ; Qin, Yujia ; Fang, Junjie ; Zhao, Yue ; Wang, Chongyi ; Liu, Jun ; Chen, Guirong ; Huo, Yupeng ; Yao, Yuan ; Lin, Yankai ; Liu, Zhiyuan ; Sun, Maosong

要約
グラフィックユーザインターフェース(GUI)を用いた人間とコンピュータの相互作用は、多様なデジタルツールへのアクセスにおいて不可欠です。最近のビジョン言語モデル(VLMs)の進歩は、汎用的なエージェントを開発して人間がGUIナビゲーションタスクを完了するのを支援する可能性を示しています。しかし、現在のVLMsは基本的な能力(OCRとgrounding)やGUI知識(GUI要素の機能と制御方法)において課題を抱えており、実用的なGUIエージェントとしての利用が妨げられています。これらの課題を解決するために、私たちは一般VLMsから視覚ベースのGUIエージェントを学習させるためのデータセット群であるGUICourseを提供します。まず、GUIEnvデータセットを導入し、VLMsのOCRとgrounding能力を強化します。次に、GUIActおよびGUIChatデータセットを導入し、これらのモデルが持つGUIコンポーネントとインタラクションに関する知識を豊かにします。実験結果は、私たちのGUIエージェントが基準となるVLMsよりも一般的なGUIタスクで優れた性能を持つことを示しています。さらには、31億パラメータを持つ小型のGUIエージェントでも単一ステップおよび複数ステップのGUIタスクで良好に動作することが確認されています。最後に、アブレーションスタディによりこのエージェントの学習段階における異なるバリエーションを分析しました。私たちのソースコードとデータセットは、https://github.com/yiye3/GUICourse で公開されています。