Mobile-Agent-v3:GUI自動化のための基盤エージェント

本論文では、デスクトップおよびモバイル環境の10のGUIベンチマークにおいて、オープンソースのエンドツーエンドモデルとして最先端の性能を達成する基礎GUIエージェントモデル「GUI-Owl」を紹介する。GUI-Owl-7Bは、AndroidWorldで66.4、OSWorldで29.4のスコアを達成した。この成果を基盤として、さらに性能を向上させた汎用GUIエージェントフレームワーク「Mobile-Agent-v3」を提案する。Mobile-Agent-v3は、AndroidWorldで73.3、OSWorldで37.7のスコアを記録し、オープンソースGUIエージェントフレームワークにおいて新たな最先端の水準を確立した。GUI-Owlは以下の3つの主要な革新を組み込んでいる:(1) 大規模な環境インフラストラクチャ:Android、Ubuntu、macOS、Windowsをカバーするクラウドベースの仮想環境を構築し、自己進化型GUI軌道生成フレームワーク「Self-Evolving GUI Trajectory Production」を実現した。この環境により、自動的なクエリ生成と正誤検証を活用し、GUI-Owl自身が軌道を反復的に最適化することで、自己改善型のループを形成できる。また、多様なデータパイプラインをサポートし、手動アノテーションの必要性を大幅に削減する。(2) 多様な基礎的エージェント機能:UIの接地(grounding)、計画、アクション意味論、推論パターンを統合することで、GUI-Owlはエンドツーエンドの意思決定を実現可能であり、マルチエージェントシステムにおけるモジュール型コンポーネントとしても活用できる。(3) 拡張可能な環境強化学習(RL):現実世界との整合性を高めるため、完全非同期なトレーニングを可能にするスケーラブルな強化学習フレームワークを開発した。さらに、オンラインRL向けに「軌道認識型相対方策最適化(Trajectory-aware Relative Policy Optimization, TRPO)」を導入し、OSWorldで34.9のスコアを達成した。GUI-OwlおよびMobile-Agent-v3は、GitHubにてオープンソースとして公開されており、URLは https://github.com/X-PLUG/MobileAgent である。