HyperAI초신경
9일 전

GUI-G^2: GUI 기반을 위한 가우시안 보상 모델링

Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
GUI-G^2: GUI 기반을 위한 가우시안 보상 모델링
초록

그래픽 사용자 인터페이스(GUI) 기반 지도는 자율적 상호작용을 위해 자연어 지시문을 정확한 인터페이스 위치에 매핑합니다. 현재 강화학습 접근법은 이벤트 요소를 '맞거나 틀린' 타겟으로 간주하는 이진 보상(binary reward)을 사용하여, 공간 상호작용의 연속성에 대한 정보를 무시하는 희소한 신호를 생성합니다. 타겟 요소 주변에 자연스럽게 형성되는 가우시안 분포(Gaussian distribution)를 인간의 클릭 행동에서 영감을 받아, 우리는 GUI 가우시안 기반 보상(GUI-G^2)이라는 체계적인 보상 프레임워크를 제안합니다. 이 프레임워크는 인터페이스 평면에서 GUI 요소를 연속적인 가우시안 분포로 모델링하여, 정밀한 위치 지정을 가능하게 합니다. GUI-G^2는 두 가지 상호작용적인 메커니즘을 포함합니다: 가우시안 포인트 보상(Gaussian point rewards)은 요소 중심에서 지수적으로 감소하는 분포를 통해 정확한 위치를 모델링하고, 커버리지 보상(coverage rewards)은 예측된 가우시안 분포와 타겟 영역 간의 겹침을 측정함으로써 공간적 정렬을 평가합니다. 다양한 요소 크기를 처리하기 위해, 우리는 요소의 크기에 따라 보상 분포를 조정하는 적응형 분산 메커니즘(adaptive variance mechanism)을 개발했습니다. 이 프레임워크는 GUI 기반 지도를 이진 분류에서 밀도 높은 연속 최적화로 전환하며, 가우시안 분포가 모델이 최적의 상호작용 위치로 가는 데 도움을 주는 풍부한 기울기 신호를 생성합니다. ScreenSpot, ScreenSpot-v2 및 ScreenSpot-Pro 벤치마크에서의 광범위한 실험 결과는 GUI-G^2가 최신 기법인 UI-TARS-72B보다 상당히 우수하며, 특히 ScreenSpot-Pro에서 24.7%의 가장 큰 개선을 보였음을 입증합니다. 우리의 분석은 연속적 모델링이 인터페이스의 변화에 더 뛰어난 견고성(robustness)을 제공하고, 익숙하지 않은 레이아웃에 대한 일반화 능력을 향상시킨다는 것을 밝혀냅니다. 이를 통해 GUI 상호작용 작업에서 공간적 추론의 새로운 패러다임을 제시합니다.