HyperAIHyperAI

Command Palette

Search for a command to run...

GUI-G^2:GUIの基盤におけるガウス報酬モデル化

概要

グラフィカルユーザーインターフェース(GUI)のグランドリングは、自然言語の指示を自律的な相互作用のためにインターフェース上の正確な位置にマッピングします。現在の強化学習アプローチでは、要素をヒットまたはミスの二値報酬として扱うため、空間的相互作用の連続性を無視した疎な信号が生成されてしまいます。人間のクリック行動が自然にターゲット要素を中心にガウス分布を形成するという点に着目し、我々はGUIガウスグランドリング報酬(GUI-G^2)という原理的な報酬フレームワークを導入します。このフレームワークでは、GUI要素をインターフェース平面全体にわたる連続的なガウス分布としてモデル化します。GUI-G^2には、2つの相互補完的なメカニズムが含まれます。1つはガウスポイント報酬で、要素の重心を中心に指数関数的に減衰する分布を通じて正確な位置をモデル化し、もう1つはカバレッジ報酬で、予測されたガウス分布とターゲット領域の重なりを測定することによって空間的整合性を評価します。多様な要素サイズに対応するため、要素の寸法に基づいて報酬分布を調整する適応的な分散メカニズムを開発しました。このフレームワークにより、GUIグランドリングは疎な二値分類から密な連続最適化へと変化し、ガウス分布がモデルを最適な相互作用位置へと導く豊かな勾配信号を生成します。ScreenSpot、ScreenSpot-v2、ScreenSpot-Proのベンチマークにおける広範な実験により、GUI-G^2が現状の最先端手法UI-TARS-72Bを大幅に上回ることを示しました。特にScreenSpot-Proでは24.7%の顕著な改善が確認されました。我々の分析から、連続的なモデリングがインターフェースの変化に対して優れたロバスト性と、未知のレイアウトへの拡張性を提供することが明らかとなり、GUI相互作用タスクにおける空間的推論の新しいパラダイムを確立しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
GUI-G^2:GUIの基盤におけるガウス報酬モデル化 | 記事 | HyperAI超神経