MMBench-GUI: GUI 에이전트를 위한 계층적 다중 플랫폼 평가 프레임워크

우리는 Windows, macOS, Linux, iOS, Android 및 Web 플랫폼에서 GUI 자동화 에이전트를 평가하기 위한 계층적 벤치마크인 MMBench-GUI를 소개합니다. 이 벤치마크는 GUI 콘텐츠 이해(GUI Content Understanding), 요소 지정(Element Grounding), 작업 자동화(Task Automation), 작업 협업(Task Collaboration)의 4단계로 구성되어 있으며, GUI 에이전트가 필요로 하는 핵심 기술을 포괄합니다. 또한, 온라인 자동화 시나리오에서 GUI 에이전트의 실행 효율성을 평가하기 위한 새로운 효율-품질 영역(Efficiency-Quality Area, EQA) 지표를 제안합니다. MMBench-GUI를 통해 정확한 시각적 지정이 전체 작업 성공에 중요한 결정 요소임을 확인하였으며, 전문적인 지정 모듈을 통합한 모듈형 프레임워크의 실질적인 이점을 강조합니다. 더욱이, 신뢰할 수 있는 GUI 자동화를 위해 에이전트는 강력한 작업 계획 수립 능력과 다중 플랫폼 일반화 능력을 필요로 하며, 장기적인 맥락 기억, 광범위한 동작 공간, 장기적인 추론 능력이 특히 중요한 역할을 합니다. 더욱 중요한 점은, 작업 효율성은 여전히 충분히 탐구되지 않은 차원이며, 모든 모델이 작업 수행 시 상당한 비효율성을 겪고 있으며, 최종적으로 작업이 완료되더라도 과도한 중복 단계가 발생합니다. 정확한 위치 지정, 효과적인 계획 수립 및 초기 중단 전략의 통합은 진정한 효율성과 확장성을 갖춘 GUI 자동화를 가능하게 하는 데 필수적입니다. 본 연구에서 제시한 벤치마크 코드, 평가 데이터 및 실행 환경은 GitHub에서 공개될 예정입니다. (https://github.com/open-compass/MMBench-GUI)