デジタル世界を人間のようにナビゲートする:GUIエージェントのための普遍的な視覚的根拠付け

マルチモーダル大規模言語モデル(MLLMs)は、グラフィカルユーザーインターフェース(GUI)エージェントの能力を変革し、さまざまなプラットフォームでの制御されたシミュレーションから複雑な実世界アプリケーションへの移行を促進しています。しかし、これらのエージェントの効果性は、その接地能力の堅牢性に大きく依存しています。現在のGUIエージェントは、HTMLやアクセシビリティツリーなどのテキストベース表現を主に利用しており、これらは有用である一方で、ノイズの導入、不完全さ、および計算負荷の増加といった問題をしばしば引き起こします。本論文では、環境を完全に視覚的に認識し、GUI上で直接ピクセルレベルの操作を行う人間のような体現を持つGUIエージェントを提唱します。その鍵となるのは、異なるプラットフォームにおいてGUI要素の多様な参照表現を正確にGUI上の座標にマッピングできる視覚接地モデルです。私たちはウェブベースの合成データとLLaVAアーキテクチャのわずかな調整を含む単純なレシピが、このような視覚接地モデルの学習に対して驚くほど効果的であることを示します。私たちはこれまで最大規模のGUI視覚接地データセットを収集しました。このデータセットには130万枚以上のスクリーンショットにおける1000万以上のGUI要素とそれらの参照表現が含まれています。そして、このデータセットを使用してUGroundという強力な普遍的な視覚接地モデルを訓練しました。6つのベンチマーク(3つのカテゴリー:接地、オフラインエージェント、オンラインエージェント)に対する経験的結果は以下の2点を示しています。1) UGroundは既存のGUIエージェント用視覚接地モデルよりも大幅に優れており、最大20%もの絶対的な性能向上を達成しています。2) UGroundを使用するエージェントはテキストベース入力を追加で使用する既存の最先端エージェントよりも優れた性能を発揮しています。これらの結果は、人間と同じようにデジタル世界をナビゲートするGUIエージェントの実現可能性と将来性に対する強い支持となっています。