OS-ATLAS: 일반적인 GUI 에이전트를 위한 기초 행동 모델

기존의 GUI 에이전트 구축 노력은 GPT-4o와 GeminiProVision과 같은 강력한 상용 비전-언어 모델(Vision-Language Models, VLMs)에 크게 의존하고 있습니다. 실무자들은 오픈 소스 VLMs를 사용하는 것을 주저하는 경향이 있는데, 이는 특히 GUI 그라운딩과 분포 외(Out-Of-Distribution, OOD) 시나리오에서 폐쇄 소스 대응모델보다 성능이 크게 떨어지기 때문입니다. 이 분야의 향후 연구를 촉진하기 위해 우리는 데이터와 모델링 양면에서 혁신을 통해 GUI 그라운딩과 OOD 에이전틱 작업에서 뛰어난 성능을 보이는 기초적인 GUI 동작 모델인 OS-Atlas를 개발했습니다. 우리는 Windows, Linux, MacOS, Android 및 웹을 포함한 여러 플랫폼에서 GUI 그라운딩 데이터를 합성하기 위한 오픈 소스 도구킷 개발에 많은 공학적 노력을 투자했습니다. 이 도구킷을 활용하여 현재까지 가장 큰 규모의 오픈 소스 크로스플랫폼 GUI 그라운딩 코퍼스를 출시하는데, 이 데이터셋은 1300만 개 이상의 GUI 요소를 포함하고 있습니다. 이 데이터셋과 모델 훈련 방법의 혁신은 OS-Atlas가 GUI 스크린샷을 이해하고 미처 본 적 없는 인터페이스로 일반화할 수 있는 견고한 기반을 제공합니다. 모바일, 데스크톱, 웹 등 세 가지 다른 플랫폼을 아우르는 여섯 가지 벤치마크에서 광범위한 평가를 거친 결과, OS-Atlas는 기존 최첨단 모델들보다 상당히 우수한 성능 향상을 보였습니다. 우리의 평가는 또한 오픈 소스 VLMs의 에이전틱 능력을 지속적으로 개선하고 확장하는 데 있어 귀중한 통찰력을 제공하였습니다.