2日前

Mobile-Agent-v3:GUI自動化のための基盤エージェント

Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
Mobile-Agent-v3:GUI自動化のための基盤エージェント
要約

本論文では、デスクトップおよびモバイル環境の10のGUIベンチマークにおいて、オープンソースのエンドツーエンドモデルとして最先端の性能を達成する基礎GUIエージェントモデル「GUI-Owl」を紹介する。GUI-Owl-7Bは、AndroidWorldで66.4、OSWorldで29.4のスコアを達成した。この成果を基盤として、さらに性能を向上させた汎用GUIエージェントフレームワーク「Mobile-Agent-v3」を提案する。Mobile-Agent-v3は、AndroidWorldで73.3、OSWorldで37.7のスコアを記録し、オープンソースGUIエージェントフレームワークにおいて新たな最先端の水準を確立した。GUI-Owlは以下の3つの主要な革新を組み込んでいる:(1) 大規模な環境インフラストラクチャ:Android、Ubuntu、macOS、Windowsをカバーするクラウドベースの仮想環境を構築し、自己進化型GUI軌道生成フレームワーク「Self-Evolving GUI Trajectory Production」を実現した。この環境により、自動的なクエリ生成と正誤検証を活用し、GUI-Owl自身が軌道を反復的に最適化することで、自己改善型のループを形成できる。また、多様なデータパイプラインをサポートし、手動アノテーションの必要性を大幅に削減する。(2) 多様な基礎的エージェント機能:UIの接地(grounding)、計画、アクション意味論、推論パターンを統合することで、GUI-Owlはエンドツーエンドの意思決定を実現可能であり、マルチエージェントシステムにおけるモジュール型コンポーネントとしても活用できる。(3) 拡張可能な環境強化学習(RL):現実世界との整合性を高めるため、完全非同期なトレーニングを可能にするスケーラブルな強化学習フレームワークを開発した。さらに、オンラインRL向けに「軌道認識型相対方策最適化(Trajectory-aware Relative Policy Optimization, TRPO)」を導入し、OSWorldで34.9のスコアを達成した。GUI-OwlおよびMobile-Agent-v3は、GitHubにてオープンソースとして公開されており、URLは https://github.com/X-PLUG/MobileAgent である。