초록

GUI 기반화(GUI grounding)는 강력한 GUI 에이전트를 구축하는 데 핵심적인 요소이다. 그러나 기존의 기반화 벤치마크는 심각한 한계를 가지고 있다. 즉, 데이터 양이 부족하고 도메인 커버리지가 좁거나, 특정 플랫폼에 지나치게 집중되어 있으며, 고도로 전문적인 도메인 지식을 요구하기 때문이다. 본 연구에서는 다양한 플랫폼을 포괄하고 실제 응용 시나리오에서 계층적 평가가 가능한 종합적이고 양방향(bilingual) 벤치마크인 VenusBench-GD를 제안한다. VenusBench-GD의 주요 기여는 다음과 같다: (i) 대규모이고 다중 플랫폼 기반의 벤치마크를 도입하여 다양한 애플리케이션, 다양한 UI 요소, 풍부한 주석 데이터를 포함하고 있으며, (ii) 기반화 작업을 위한 고품질 데이터 구축 파이프라인을 마련하여 기존 벤치마크보다 높은 주석 정확도를 달성하였으며, (iii) 요소 기반화의 범위를 확장하기 위해 기본과 고급으로 구분되는 계층적 작업 분류 체계를 제안하였으며, 모델을 보완적인 관점에서 평가할 수 있도록 여섯 가지 구분된 하위 작업을 설계하였다. 실험 결과를 통해 중요한 통찰을 도출할 수 있었다. 일반적인 다모달 모델이 이제 기본 기반화 작업에서 전용 GUI 모델과 동등하거나 이를 초월하고 있음을 확인하였으며, 반면 고급 작업에서는 여전히 GUI 전용 모델이 우세하나, 과적합이 심하고 낮은 견고성(로버스트성)을 보이고 있음을 발견하였다. 이러한 결과는 종합적이고 다단계 평가 프레임워크의 필요성을 강조한다.

소스 PDF