모바일 에이전트-v3: GUI 자동화를 위한 기초 에이전트

이 논문은 데스크톱 및 모바일 환경에서 10개의 GUI 벤치마크를 대상으로, 지향성(grounding), 질의응답, 계획 수립, 의사결정, 절차적 지식 처리 등 다양한 작업을 포함하며, 오픈소스 엔드투엔드 모델 중 최고 성능을 달성하는 기초 GUI 에이전트 모델인 GUI-Owl을 소개한다. GUI-Owl-7B는 AndroidWorld에서 66.4점, OSWorld에서 29.4점을 기록한다. 이를 바탕으로, 더 높은 성능을 달성하기 위해 일반 목적의 GUI 에이전트 프레임워크인 Mobile-Agent-v3를 제안하며, 이는 AndroidWorld에서 73.3점, OSWorld에서 37.7점을 기록하여 오픈소스 GUI 에이전트 프레임워크 분야에서 새로운 최고 성능을 수립했다. GUI-Owl은 세 가지 핵심 혁신을 포함한다. (1) 대규모 환경 인프라: 안드로이드, 우분투, 맥OS, 윈도우를 아우르는 클라우드 기반 가상 환경을 구축하여, 자체 진화형 GUI 트래잭션 생성 프레임워크(Self-Evolving GUI Trajectory Production)를 구현하였다. 이는 자동 질의 생성과 정확도 검증을 통해 고품질의 상호작용 데이터를 생성하며, GUI-Owl 자체를 활용해 트래잭션을 반복적으로 개선함으로써 자기 개선형 루프를 형성한다. 이 인프라는 다양한 데이터 파이프라인을 지원하며 수동 주석 작업을 크게 줄인다. (2) 다양한 기초 에이전트 기능: UI 지향성, 계획 수립, 행동 의미론, 추론 패턴을 통합함으로써 GUI-Owl은 엔드투엔드 의사결정을 지원하며, 다중 에이전트 시스템 내에서 모듈형 구성 요소로 활용 가능하다. (3) 확장 가능한 환경 기반 강화학습(Reinforcement Learning): 현실 세계와의 일치를 위한 완전히 비동기적 훈련을 지원하는 확장 가능한 강화학습 프레임워크를 개발하였다. 또한, 온라인 강화학습을 위해 트래잭션 인지형 상대적 정책 최적화(Trajectory-aware Relative Policy Optimization, TRPO)를 도입하여 OSWorld에서 34.9점을 달성하였다. GUI-Owl 및 Mobile-Agent-v3는 https://github.com/X-PLUG/MobileAgent에서 오픈소스로 공개된다.