HyperAI超神経
2日前

UI-AGILE:GUIエージェントの強化学習と正確な推論時における接地の進展

Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, et al
UI-AGILE:GUIエージェントの強化学習と正確な推論時における接地の進展
要約

マルチモーダル大規模言語モデル(MLLMs)の登場により、グラフィカルユーザーインターフェース(GUI)エージェントの能力は大幅に進化しました。しかし、現存するGUIエージェントのトレーニングおよび推論技術は、推論設計、報酬の不効率性、および視覚ノイズの問題により、依然としてジレンマに直面しています。これらの課題に対処するため、我々はトレーニングおよび推論の両ステージでGUIエージェントを強化する包括的なフレームワーク「UI-AGILE」を導入します。トレーニングにおいては、監督的ファインチューニング(SFT)プロセスの改善を提案します。具体的には、1)高精度なグランドリングを促進する連続的報酬関数、2)計画性と速度、およびグランドリング精度のバランスを取る「シンプル・シンキング(Simple Thinking)」報酬、3)スパース報酬問題を軽減し、複雑なタスクにおける学習を向上させる「クロッピングベースのリサンプリング(Cropping-based Resampling)」戦略です。推論においては、「選択付き分解グランドリング(Decomposed Grounding with Selection)」という新しい手法を提示します。この手法は、画像を小さな処理可能な部分に分割することで、高解像度ディスプレイにおけるグランドリング精度を大幅に向上させます。実験の結果、UI-AGILEはScreenSpot-ProおよびScreenSpot-v2という2つのベンチマークにおいて最前線の性能を達成しました。例えば、我々が提案したトレーニングおよび推論の改善手法を両方使用することで、ScreenSpot-Proでは最良のベースラインに対して23%のグランドリング精度の向上が得られました。