13日前

InfiGUI-G1:適応的探索方策最適化によるGUIインデキシングの進展

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
InfiGUI-G1:適応的探索方策最適化によるGUIインデキシングの進展
要約

マルチモーダル大規模言語モデル(MLLM)の登場により、純粋な視覚入力のみを用いてグラフィカルユーザーインターフェース(GUI)上で自律的に動作するエージェントの開発が進展している。こうしたモデルにおける根本的な課題は、自然言語による指示を堅牢にGUI要素に対応付けることにある。これには、各UI要素の正確な座標位置を特定する「空間的整合性」と、指示と機能的に適切なUI要素を正しく対応付ける「意味的整合性」の両方が求められる。従来、検証可能な報酬を用いた強化学習(RLVR)は、MLLMにおける空間的整合性の向上に有効であることが実証されているが、本研究では、探索の非効率性が意味的整合性の学習を妨げ、困難な意味関係の習得を阻害していることを明らかにした。この探索の課題に対処するため、本研究では新たな方策最適化フレームワーク「適応的探索方策最適化(Adaptive Exploration Policy Optimization; AEPO)」を提案する。AEPOは、より広範な探索を促進するための多回答生成戦略を採用し、その探索を、効率性η=U/Cという基本原理から導かれた理論的根拠を持つ「適応的探索報酬(Adaptive Exploration Reward; AER)」関数によって指導する。AEPOで訓練されたモデル、InfiGUI-G1-3BおよびInfiGUI-G1-7Bは、複数の困難なGUI対応ベンチマークにおいて、新たな最先端の性能を達成し、一般化能力および意味理解を評価するためのベンチマークにおいて、単純なRLVRベースラインと比較して最大9.0%の相対的な性能向上を実現した。関連リソースは以下のURLから入手可能:https://github.com/InfiXAI/InfiGUI-G1。