HyperAIHyperAI

Command Palette

Search for a command to run...

Phi-Groundテクニカルレポート:GUIグラウンディングにおける認識の進展

概要

マルチモーダル推論モデルの発展に伴い、「アイアンマン」に登場するジャービスに類似したコンピュータ利用エージェント(Computer Use Agents, CUAs)が現実のものとなりつつある。CUAsが実際の操作を実行するための核心的な要素であるGUIオントロジー(GUI grounding)は、ロボティクスにおける機械制御と同様の役割を果たし、システムの成功または失敗を直接左右する。クリックや入力といった操作、およびクリック座標などに関連するパラメータの決定に不可欠である。現在のエンドツーエンド型オントロジーモデルは、ScreenSpot-proやUI-Visionといった難易度の高いベンチマークにおいても、依然として65%未満の精度にとどまっており、実運用に向けた準備は十分ではないことを示している。というのも、単一の誤クリックが受け入れがたい結果を招く可能性があるからである。本研究では、オントロジーモデルの訓練に関する実証的研究を実施し、データ収集からモデル訓練に至るまで、さまざまな詳細を検討した。その結果、100億パラメータ以下のモデルにおいて、エージェント設定下で全5つのオントロジーベンチマークで最先端(SOTA)の性能を達成する「Phi-Ground」モデル群を開発した。エンドツーエンドモデル設定においても、ScreenSpot-proで43.2、UI-Visionで27.2というスコアを達成し、依然として最先端の結果を示した。本研究で提示したさまざまな技術的詳細、ならびに得られた成功と失敗の経験は、オントロジーモデルの構築に関する理解を深めるだけでなく、他の認識タスクにも貢献すると考えている。プロジェクト公式ページ:https://zhangmiaosen2000.github.io/Phi-Ground/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Phi-Groundテクニカルレポート:GUIグラウンディングにおける認識の進展 | 記事 | HyperAI超神経