HyperAIHyperAI

Command Palette

Search for a command to run...

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

초록

GUI 기반화(GUI grounding)는 강력한 GUI 에이전트를 구축하는 데 핵심적인 요소이다. 그러나 기존의 기반화 벤치마크는 심각한 한계를 가지고 있다. 즉, 데이터 양이 부족하고 도메인 커버리지가 좁거나, 특정 플랫폼에 지나치게 집중되어 있으며, 고도로 전문적인 도메인 지식을 요구하기 때문이다. 본 연구에서는 다양한 플랫폼을 포괄하고 실제 응용 시나리오에서 계층적 평가가 가능한 종합적이고 양방향(bilingual) 벤치마크인 VenusBench-GD를 제안한다. VenusBench-GD의 주요 기여는 다음과 같다: (i) 대규모이고 다중 플랫폼 기반의 벤치마크를 도입하여 다양한 애플리케이션, 다양한 UI 요소, 풍부한 주석 데이터를 포함하고 있으며, (ii) 기반화 작업을 위한 고품질 데이터 구축 파이프라인을 마련하여 기존 벤치마크보다 높은 주석 정확도를 달성하였으며, (iii) 요소 기반화의 범위를 확장하기 위해 기본과 고급으로 구분되는 계층적 작업 분류 체계를 제안하였으며, 모델을 보완적인 관점에서 평가할 수 있도록 여섯 가지 구분된 하위 작업을 설계하였다. 실험 결과를 통해 중요한 통찰을 도출할 수 있었다. 일반적인 다모달 모델이 이제 기본 기반화 작업에서 전용 GUI 모델과 동등하거나 이를 초월하고 있음을 확인하였으며, 반면 고급 작업에서는 여전히 GUI 전용 모델이 우세하나, 과적합이 심하고 낮은 견고성(로버스트성)을 보이고 있음을 발견하였다. 이러한 결과는 종합적이고 다단계 평가 프레임워크의 필요성을 강조한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크 | 문서 | HyperAI초신경