2달 전

디지털 세계를 인간처럼 탐색하기: GUI 에이전트를 위한 보편적인 시각적 기반 설정

Gou, Boyu ; Wang, Ruohan ; Zheng, Boyuan ; Xie, Yanan ; Chang, Cheng ; Shu, Yiheng ; Sun, Huan ; Su, Yu
디지털 세계를 인간처럼 탐색하기: GUI 에이전트를 위한 보편적인 시각적 기반 설정
초록

다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 그래픽 사용자 인터페이스(GUI) 에이전트의 기능을 혁신적으로 변화시키고 있으며, 다양한 플랫폼에서 제어된 시뮬레이션에서 복잡한 실제 세계 애플리케이션으로의 전환을 촉진하고 있습니다. 그러나 이러한 에이전트의 효과성은 그들의 기반 능력(grounding capability)의 견고함에 크게 의존합니다. 현재 GUI 에이전트는 주로 HTML 또는 접근성 트리와 같은 텍스트 기반 표현을 활용하지만, 이들 표현은 유용함에도 불구하고 종종 노이즈, 불완전성, 그리고 증가된 계산 부하를 초래합니다.본 논문에서는 인간과 유사한 형태를 가진 GUI 에이전트를 제안합니다. 이러한 에이전트는 환경을 완전히 시각적으로 인식하고 GUI 상에서 직접 픽셀 단위 작업을 수행합니다. 핵심은 다양한 플랫폼에서 GUI 요소의 다양한 지시 표현(referring expressions)을 GUI 상의 좌표로 정확하게 매핑할 수 있는 시각적 기반 모델(visual grounding models)입니다. 우리는 웹 기반 합성 데이터와 LLaVA 아키텍처의 약간의 조정을 포함하는 간단한 방법론이 이러한 시각적 기반 모델의 훈련에 놀랍게도 효과적임을 보여줍니다.우리는 130만 개 이상의 스크린샷에 걸쳐 1,000만 개 이상의 GUI 요소와 그 지시 표현을 포함하는 가장 큰 규모의 GUI 시각적 기반 데이터셋을 수집하여 이를 이용해 UGround라는 강력한 보편적인 시각적 기반 모델을 훈련시켰습니다. 세 가지 범주(기반, 오프라인 에이전트, 온라인 에이전트)에 걸친 여섯 가지 벤치마크에서 실증 결과는 다음과 같습니다: 1) UGround는 기존의 GUI 에이전트용 시각적 기반 모델보다 최대 20% 절대적으로 우수한 성능을 보였으며, 2) UGround를 사용한 에이전트들은 우리 모델이 오직 시각적 인식만 사용하는 반면 기존 에이전트들이 추가적인 텍스트 기반 입력을 사용한다는 사실에도 불구하고 최신 에이전트들을 능가했습니다. 이러한 결과들은 인간처럼 디지털 세계를 탐색하는 GUI 에이전트의 가능성을 강력하게 뒷받침합니다.

디지털 세계를 인간처럼 탐색하기: GUI 에이전트를 위한 보편적인 시각적 기반 설정 | 최신 연구 논문 | HyperAI초신경