2ヶ月前
SeeClick: GUI グラウンディングを活用した高度な視覚的な GUI エージェントの開発
Kanzhi Cheng; Qiushi Sun; Yougang Chu; Fangzhi Xu; Yantao Li; Jianbing Zhang; Zhiyong Wu

要約
グラフィカル・ユーザー・インターフェース(GUI)エージェントは、スマートフォンやデスクトップなどのデジタル機器上で複雑なタスクを自動化するために設計されています。既存の大多数のGUIエージェントは、環境との相互作用に抽出された構造化データ(例:HTML)を使用しており、これがしばしば長大で(例:HTML)、ときにはアクセス不能な場合もあります(例:デスクトップ)。この問題を解決するため、当研究では新しい視覚的なGUIエージェント「SeeClick」を提案します。これは、スクリーンショットのみを使用してタスクを自動化します。我々の初期研究において、視覚的なGUIエージェントを開発する際の主要な課題が明らかになりました。それは、GUIグランドイング——指示に基づいて画面要素を正確に位置特定する能力です。この課題に対処するために、SeeClickのGUIグランドイング事前学習の強化と、GUIグランドイングデータのキュレーションを自動化する方法の開発を提案します。さらに、モバイル、デスクトップ、ウェブ環境を網羅した最初の現実的なGUIグランドイングベンチマーク「ScreenSpot」を作成しました。事前学習後、SeeClickはScreenSpotにおいて様々なベースラインに対して大幅な改善を示しています。また、広く使用されている3つのベンチマークでの包括的な評価により、GUIグランドイングの進歩が下流のGUIエージェントタスクにおける性能向上と直接相関しているという我々の見解が一貫して支持されています。モデル、データおよびコードは https://github.com/njucckevin/SeeClick で公開されています。