Command Palette
Search for a command to run...
GTA1: GUI テスト時のスケーリングエージェント
GTA1: GUI テスト時のスケーリングエージェント
概要
グラフィカルユーザインターフェース(GUI)エージェントは、プラットフォーム間(例えばLinux)で自律的に動作し、視覚要素との対話によってタスクを完了します。具体的には、ユーザの指示が一連のアクション提案に分解され、それぞれがGUIとの対応する相互作用に対応します。各アクション後、エージェントは更新されたGUI環境を観察して次のステップを計画します。しかし、主に2つの課題が生じます。i) タスク計画における曖昧性の解消(つまりアクション提案シーケンス)であり、多くの有効な計画が存在するため、適切な計画を選択することは容易ではありません;ii) 複雑で高解像度のインターフェースにおいてアクションを正確に位置づけること、すなわち視覚的なターゲットと正確に相互作用することです。本論文では、これらの2つの課題について我々のGUIテストタイムスケーリングエージェント(GTA1)を使用して調査を行いました。まず、最も適切なアクション提案を選択するために、テストタイムスケーリング手法を導入しました。各ステップで複数の候補となるアクション提案をサンプリングし、ジャッジモデルを利用して評価し、最も適切なものを選択します。この手法は並列サンプリングにより計算量と決定品質のトレードオフを行い、タスク実行ステップを短縮し全体的な性能向上につながります。次に、選択されたアクション提案を対応する視覚要素に位置づける際の精度向上を目指したモデルを提案しました。我々の主要な洞察は、強化学習(RL)が内在的な目的の一貫性を通じて視覚的位置づけを促進し、インターフェース要素への成功したクリックに対して報酬を与えることです。実験結果では、我々の手法は多様なベンチマークにおいて最先端の性能を達成しています。例えば、GTA1-7BはScreenspot-Pro, Screenspot-V2, OSWorld-Gにおいてそれぞれ50.1%, 92.4%, 67.7%の精度を達成しています。また、我々のテストタイムスケーリング戦略を使用するプランナーと組み合わせた場合、OSWorldでのタスク成功率45.2%など最先端のエージェント性能を示しています。我々はコードとモデルを開発元公開しています。注:「開発元公開」は「open-source」に対する一般的な日本語表現です。ただし、「オープンソース化」や「オープンソースとして公開」などの表現も可能です。