2ヶ月前

Aguvis: 自動GUIインタラクションのための統一された純粋ビジョンエージェント

Xu, Yiheng ; Wang, Zekun ; Wang, Junli ; Lu, Dunjie ; Xie, Tianbao ; Saha, Amrita ; Sahoo, Doyen ; Yu, Tao ; Xiong, Caiming
Aguvis: 自動GUIインタラクションのための統一された純粋ビジョンエージェント
要約

GUIタスクの自動化は、テキスト表現への依存、プラットフォーム固有のアクション空間、および限られた推論能力のため、依然として課題が多い。本稿では、Aguvisという統合されたビジョンベースのフレームワークを紹介する。このフレームワークは、スクリーン画像を直接操作し、クロスプラットフォームでの相互作用を標準化し、内省を通じて構造化された推論を組み込むことで、自律的なGUIエージェントの実現を目指している。これを可能にするために、大規模なマルチモーダルなグラウンドと推論アノテーションを持つAguvisデータセットを構築し、GUIグラウンドとプランニング・推論を分離した二段階の学習パイプラインを開発した。実験結果は、Aguvisがオフラインおよびリアルワールドオンラインベンチマークにおいて最先端の性能を達成しており、クローズドソースモデルを使用せずに完全に自律的に動作する初めてのビジョンベースGUIエージェントであることを示している。私たちは未来の研究を進めるために、すべてのデータセット、モデル、および学習レシピをオープンソースで公開し、詳細はhttps://aguvis-project.github.io で確認できる。GUI (Graphical User Interface): グラフィカルユーザーインターフェースOffline: オフラインReal-world online: リアルワールドオンラインClosed-source models: クローズドソースモデル

Aguvis: 自動GUIインタラクションのための統一された純粋ビジョンエージェント | 最新論文 | HyperAI超神経