2일 전

모바일 에이전트-v3: GUI 자동화를 위한 기초 에이전트

Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
모바일 에이전트-v3: GUI 자동화를 위한 기초 에이전트
초록

이 논문은 데스크톱 및 모바일 환경에서 10개의 GUI 벤치마크를 대상으로, 지향성(grounding), 질의응답, 계획 수립, 의사결정, 절차적 지식 처리 등 다양한 작업을 포함하며, 오픈소스 엔드투엔드 모델 중 최고 성능을 달성하는 기초 GUI 에이전트 모델인 GUI-Owl을 소개한다. GUI-Owl-7B는 AndroidWorld에서 66.4점, OSWorld에서 29.4점을 기록한다. 이를 바탕으로, 더 높은 성능을 달성하기 위해 일반 목적의 GUI 에이전트 프레임워크인 Mobile-Agent-v3를 제안하며, 이는 AndroidWorld에서 73.3점, OSWorld에서 37.7점을 기록하여 오픈소스 GUI 에이전트 프레임워크 분야에서 새로운 최고 성능을 수립했다. GUI-Owl은 세 가지 핵심 혁신을 포함한다. (1) 대규모 환경 인프라: 안드로이드, 우분투, 맥OS, 윈도우를 아우르는 클라우드 기반 가상 환경을 구축하여, 자체 진화형 GUI 트래잭션 생성 프레임워크(Self-Evolving GUI Trajectory Production)를 구현하였다. 이는 자동 질의 생성과 정확도 검증을 통해 고품질의 상호작용 데이터를 생성하며, GUI-Owl 자체를 활용해 트래잭션을 반복적으로 개선함으로써 자기 개선형 루프를 형성한다. 이 인프라는 다양한 데이터 파이프라인을 지원하며 수동 주석 작업을 크게 줄인다. (2) 다양한 기초 에이전트 기능: UI 지향성, 계획 수립, 행동 의미론, 추론 패턴을 통합함으로써 GUI-Owl은 엔드투엔드 의사결정을 지원하며, 다중 에이전트 시스템 내에서 모듈형 구성 요소로 활용 가능하다. (3) 확장 가능한 환경 기반 강화학습(Reinforcement Learning): 현실 세계와의 일치를 위한 완전히 비동기적 훈련을 지원하는 확장 가능한 강화학습 프레임워크를 개발하였다. 또한, 온라인 강화학습을 위해 트래잭션 인지형 상대적 정책 최적화(Trajectory-aware Relative Policy Optimization, TRPO)를 도입하여 OSWorld에서 34.9점을 달성하였다. GUI-Owl 및 Mobile-Agent-v3는 https://github.com/X-PLUG/MobileAgent에서 오픈소스로 공개된다.