2 天前

Mobile-Agent-v3:GUI自动化的基础智能体

Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
Mobile-Agent-v3:GUI自动化的基础智能体
摘要

本文介绍了GUI-Owl,一个基础性的图形用户界面(GUI)智能体模型,在涵盖桌面与移动端的十个GUI基准测试中,其在开源端到端模型中达到了当前最先进水平,全面覆盖了GUI定位、问答、规划、决策与程序性知识等任务。GUI-Owl-7B在AndroidWorld基准上取得66.4分,在OSWorld上取得29.4分。在此基础上,我们提出了Mobile-Agent-v3——一个通用的GUI智能体框架,进一步将性能提升至AndroidWorld的73.3分和OSWorld的37.7分,为开源GUI智能体框架树立了新的性能标杆。GUI-Owl包含三项核心技术创新:(1)大规模环境基础设施:构建了一个基于云的虚拟环境,覆盖Android、Ubuntu、macOS与Windows系统,支撑了我们提出的自演化GUI轨迹生成框架(Self-Evolving GUI Trajectory Production)。该框架通过自动化查询生成与结果正确性验证,利用GUI-Owl自身对轨迹进行迭代优化,形成闭环自我改进机制。该基础设施支持多样化的数据流水线,显著减少了人工标注需求。(2)多样化的基础智能体能力:通过整合用户界面定位、任务规划、动作语义与推理模式,GUI-Owl实现了端到端的决策能力,并可作为模块化组件嵌入多智能体系统中。(3)可扩展的环境强化学习:我们设计了一种支持全异步训练的可扩展强化学习框架,以实现与真实世界的一致性对齐。此外,我们提出了一种轨迹感知的相对策略优化方法(Trajectory-aware Relative Policy Optimization, TRPO),用于在线强化学习,在OSWorld上实现了34.9分的性能表现。GUI-Owl与Mobile-Agent-v3已开源,项目地址为:https://github.com/X-PLUG/MobileAgent。