2달 전

OS-ATLAS: 일반적인 GUI 에이전트를 위한 기초 행동 모델

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

논문 세부 정보 보기

초록

기존의 GUI 에이전트 구축 노력은 GPT-4o와 GeminiProVision과 같은 강력한 상용 비전-언어 모델(Vision-Language Models, VLMs)에 크게 의존하고 있습니다. 실무자들은 오픈 소스 VLMs를 사용하는 것을 주저하는 경향이 있는데, 이는 특히 GUI 그라운딩과 분포 외(Out-Of-Distribution, OOD) 시나리오에서 폐쇄 소스 대응모델보다 성능이 크게 떨어지기 때문입니다. 이 분야의 향후 연구를 촉진하기 위해 우리는 데이터와 모델링 양면에서 혁신을 통해 GUI 그라운딩과 OOD 에이전틱 작업에서 뛰어난 성능을 보이는 기초적인 GUI 동작 모델인 OS-Atlas를 개발했습니다. 우리는 Windows, Linux, MacOS, Android 및 웹을 포함한 여러 플랫폼에서 GUI 그라운딩 데이터를 합성하기 위한 오픈 소스 도구킷 개발에 많은 공학적 노력을 투자했습니다. 이 도구킷을 활용하여 현재까지 가장 큰 규모의 오픈 소스 크로스플랫폼 GUI 그라운딩 코퍼스를 출시하는데, 이 데이터셋은 1300만 개 이상의 GUI 요소를 포함하고 있습니다. 이 데이터셋과 모델 훈련 방법의 혁신은 OS-Atlas가 GUI 스크린샷을 이해하고 미처 본 적 없는 인터페이스로 일반화할 수 있는 견고한 기반을 제공합니다. 모바일, 데스크톱, 웹 등 세 가지 다른 플랫폼을 아우르는 여섯 가지 벤치마크에서 광범위한 평가를 거친 결과, OS-Atlas는 기존 최첨단 모델들보다 상당히 우수한 성능 향상을 보였습니다. 우리의 평가는 또한 오픈 소스 VLMs의 에이전틱 능력을 지속적으로 개선하고 확장하는 데 있어 귀중한 통찰력을 제공하였습니다.