概要

マルチモーダル推論モデルの発展に伴い、「アイアンマン」に登場するジャービスに類似したコンピュータ利用エージェント（Computer Use Agents, CUAs）が現実のものとなりつつある。CUAsが実際の操作を実行するための核心的な要素であるGUIオントロジー（GUI grounding）は、ロボティクスにおける機械制御と同様の役割を果たし、システムの成功または失敗を直接左右する。クリックや入力といった操作、およびクリック座標などに関連するパラメータの決定に不可欠である。現在のエンドツーエンド型オントロジーモデルは、ScreenSpot-proやUI-Visionといった難易度の高いベンチマークにおいても、依然として65％未満の精度にとどまっており、実運用に向けた準備は十分ではないことを示している。というのも、単一の誤クリックが受け入れがたい結果を招く可能性があるからである。本研究では、オントロジーモデルの訓練に関する実証的研究を実施し、データ収集からモデル訓練に至るまで、さまざまな詳細を検討した。その結果、100億パラメータ以下のモデルにおいて、エージェント設定下で全5つのオントロジーベンチマークで最先端（SOTA）の性能を達成する「Phi-Ground」モデル群を開発した。エンドツーエンドモデル設定においても、ScreenSpot-proで43.2、UI-Visionで27.2というスコアを達成し、依然として最先端の結果を示した。本研究で提示したさまざまな技術的詳細、ならびに得られた成功と失敗の経験は、オントロジーモデルの構築に関する理解を深めるだけでなく、他の認識タスクにも貢献すると考えている。プロジェクト公式ページ：https://zhangmiaosen2000.github.io/Phi-Ground/

ソースPDF コードを表示