HyperAIHyperAI

Command Palette

Search for a command to run...

Aguvis: 自動GUIインタラクションのための統一された純粋ビジョンエージェント

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

概要

GUIタスクの自動化は、テキスト表現への依存、プラットフォーム固有のアクション空間、および限られた推論能力のため、依然として課題が多い。本稿では、Aguvisという統合されたビジョンベースのフレームワークを紹介する。このフレームワークは、スクリーン画像を直接操作し、クロスプラットフォームでの相互作用を標準化し、内省を通じて構造化された推論を組み込むことで、自律的なGUIエージェントの実現を目指している。これを可能にするために、大規模なマルチモーダルなグラウンドと推論アノテーションを持つAguvisデータセットを構築し、GUIグラウンドとプランニング・推論を分離した二段階の学習パイプラインを開発した。実験結果は、Aguvisがオフラインおよびリアルワールドオンラインベンチマークにおいて最先端の性能を達成しており、クローズドソースモデルを使用せずに完全に自律的に動作する初めてのビジョンベースGUIエージェントであることを示している。私たちは未来の研究を進めるために、すべてのデータセット、モデル、および学習レシピをオープンソースで公開し、詳細はhttps://aguvis-project.github.io で確認できる。GUI (Graphical User Interface): グラフィカルユーザーインターフェースOffline: オフラインReal-world online: リアルワールドオンラインClosed-source models: クローズドソースモデル


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています