10시간 전

OpenCUA: 컴퓨터 사용 에이전트를 위한 오픈 기반

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, et al
OpenCUA: 컴퓨터 사용 에이전트를 위한 오픈 기반
초록

시각-언어 모델은 다양한 컴퓨터 작업을 자동화할 수 있는 컴퓨터 사용 에이전트(CUA)로서 놀라운 능력을 보여주고 있다. 이러한 모델의 상용 가능성은 점점 커지고 있으나, 가장 고도의 성능을 갖춘 CUA 시스템의 핵심 세부 정보는 여전히 비공개 상태이다. 이러한 에이전트가 점점 더 디지털 상호작용을 매개하고 우리 대신 중요한 결정을 내리게 되는 만큼, 연구 공동체는 이러한 에이전트의 능력, 한계 및 위험을 연구할 수 있도록 개방형 CUA 프레임워크에 접근할 필요가 있다. 이 격차를 메우기 위해, 우리는 CUA 데이터 및 기초 모델의 확장에 적합한 포괄적인 오픈소스 프레임워크인 OpenCUA를 제안한다. 본 프레임워크는 다음과 같은 세 가지 구성 요소로 이루어져 있다: (1) 사용자의 컴퓨터 사용 사례를 원활하게 기록할 수 있는 annotation 인프라; (2) 3개 운영체제와 200개 이상의 애플리케이션 및 웹사이트를 아우르는 대규모 컴퓨터 사용 작업 데이터셋인 AgentNet; (3) 사례를 상태-행동 쌍으로 변환하는 확장 가능한 파이프라인으로, 반사적이고 긴 Chain-of-Thought 추론을 통해 데이터 규모가 증가함에 따라도 견고한 성능 향상을 유지한다. 제안된 엔드투엔드 에이전트 모델은 CUA 벤치마크에서 뛰어난 성능을 보였다. 특히 OpenCUA-32B는 OSWorld-Verified에서 평균 성공률 34.8%를 기록하며, 오픈소스 모델 중 최고 성능을 달성하며 OpenAI CUA(GPT-4o)를 초월하는 새로운 최상위 성능(SOTA)을 확립했다. 추가 분석을 통해 본 연구의 접근 방식이 다양한 도메인에 잘 일반화되며, 테스트 시 계산 자원이 증가할수록 상당한 성능 향상을 얻는다는 점이 확인되었다. 본 연구에서는 annotation 도구, 데이터셋, 코드 및 모델을 공개하여 향후 CUA 연구를 위한 개방형 기반을 마련하고자 한다.