Command Palette
Search for a command to run...
GUICourse: 一般的ビジョン言語モデルから多機能GUIエージェントへ
GUICourse: 一般的ビジョン言語モデルから多機能GUIエージェントへ
概要
グラフィックユーザインターフェース(GUI)を用いた人間とコンピュータの相互作用は、多様なデジタルツールへのアクセスにおいて不可欠です。最近のビジョン言語モデル(VLMs)の進歩は、汎用的なエージェントを開発して人間がGUIナビゲーションタスクを完了するのを支援する可能性を示しています。しかし、現在のVLMsは基本的な能力(OCRとgrounding)やGUI知識(GUI要素の機能と制御方法)において課題を抱えており、実用的なGUIエージェントとしての利用が妨げられています。これらの課題を解決するために、私たちは一般VLMsから視覚ベースのGUIエージェントを学習させるためのデータセット群であるGUICourseを提供します。まず、GUIEnvデータセットを導入し、VLMsのOCRとgrounding能力を強化します。次に、GUIActおよびGUIChatデータセットを導入し、これらのモデルが持つGUIコンポーネントとインタラクションに関する知識を豊かにします。実験結果は、私たちのGUIエージェントが基準となるVLMsよりも一般的なGUIタスクで優れた性能を持つことを示しています。さらには、31億パラメータを持つ小型のGUIエージェントでも単一ステップおよび複数ステップのGUIタスクで良好に動作することが確認されています。最後に、アブレーションスタディによりこのエージェントの学習段階における異なるバリエーションを分析しました。私たちのソースコードとデータセットは、https://github.com/yiye3/GUICourse で公開されています。