OS-MAP: 컴퓨터 사용 에이전트가 넓이와 깊이에서 얼마나 멀리 갈 수 있을까?

컴퓨터 사용을 위한 에이전트는 다양한 플랫폼에서 인간의 생산성을 향상시키고 새로운 응용 형태를 가능하게 하는 강력한 잠재력을 보여주고 있다. 최근 기술 발전으로 인해 실용적인 응용이 가능해졌지만, 기존의 기준은 내부 작업의 이질성과 이를 수행하는 에이전트의 능력, 그리고 실제 사용자 요구와의 일치도를 고려하지 못하고 있어, 특정 기능 개발과 연구 성과의 실용적 도입 과정을 방해하고 있다. 이러한 격차를 극복하기 위해, 우리는 OS-MAP을 제안한다. 이는 일상적인 컴퓨터 사용 자동화를 위한 벤치마크로, 15개의 애플리케이션에 걸쳐 416개의 실제 작업을 포함하고 있으며, 두 가지 핵심 차원에 따라 구성된다: 자동화 수준에 대한 5단계 분류 체계와, 실제 사용자 요구 계층에서 유도된 일반화 범위. 실세계 시나리오와의 능력 요구사항을 세부적으로 분석하고 일치시키기 위해, OS-MAP은 에이전트를 두 가지 차원에서 평가한다: 자동화 수준은 5단계 분류 체계에 따라, 일반화 범위는 요구 계층에 따라 평가한다. 이 설계는 에이전트의 자율성과 일반화 능력의 다양한 수준을 포착하여, 구조적이고 종합적인 성능-일반화 평가 행렬을 형성한다. 실험 결과, VLM 기반의 최신 기술을 갖춘 에이전트조차 인지, 추론, 협업을 포함한 고수준 작업에 어려움을 겪는 것으로 나타나, 현재 기술의 강점과 한계를 더 깊이 이해함으로써 컴퓨터 사용 에이전트 연구 및 실용화를 위한 미래 발전을 이끌어내야 함을 강조한다. 모든 코드, 환경, 기준 모델, 데이터는 이 https URL에서 공개되어 있다.