Command Palette
Search for a command to run...
UI-S1:セミオンライン強化学習を活用したGUI自動化の進展
UI-S1:セミオンライン強化学習を活用したGUI自動化の進展
概要
グラフィカルユーザーインターフェース(GUI)エージェントは、強化学習を活用して複雑なユーザーインターフェース操作を自動化する点で顕著な進展を遂げている。しかし、現在の手法には根本的なジレンマが存在する。オフライン強化学習(offline RL)は、事前に収集された遷移データ上で安定した学習が可能であるが、エピソード全体の報酬信号が欠如しているため、複数ステップにわたるタスク実行には苦慮する。一方、オンライン強化学習(online RL)は環境との相互作用を通じてこれらの信号を捉えることができるが、報酬の疎らさと高い展開コストという課題に直面している。この問題に対処するため、本研究では「セミオンライン強化学習(Semi-online Reinforcement Learning)」という新しい枠組みを提案する。この手法は、オフラインの遷移データ上でオンラインRLをシミュレートするものであり、各ロールアウトプロセスにおいて、マルチターン対話内の元のモデル出力を保持する。ここで、パッチモジュール(Patch Module)がロールアウト軌道とエキスパート軌道の乖離を適応的に補正する。長期的な学習信号を捉えるために、セミオンラインRLは報酬計算に割引未来リターンを導入し、重み付きのステップレベルおよびエピソードレベルのアドバンテージを用いてポリシーを最適化する。さらに、実際のオンライン性能とより良好に一致する指標「セミオンラインパフォーマンス(Semi-Online Performance, SOP)」を導入し、実世界評価における実用的かつ有効な代理指標として機能させる。実験の結果、7B規模のモデルにおいて4つの動的ベンチマークで最先端(SOTA)の性能を達成し、ベースモデルと比較して顕著な向上を示した(例:AndroidWorldで+12.0%、AITWで+23.8%)。これは、オフライン学習の効率性とオンラインにおけるマルチターン推論能力のギャップを大きく縮めることに成功したことを示している。コードは、https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1 にて公開されている。