HyperAI초신경
14시간 전

Phi-Ground 기술 보고서: GUI 기반 인식의 발전

Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, Qi Dai, Kai Qiu, Yifan Yang, Chong Luo, Tianyi Chen, Justin Wagle, Tim Franklin, Baining Guo
Phi-Ground 기술 보고서: GUI 기반 인식의 발전
초록

다중모달 추론 모델의 발전과 함께, 영화 『아이언맨』의 자비스와 유사한 컴퓨터 사용 에이전트(CUAs)가 현실화되고 있다. GUI 기반화(GUI grounding)는 로봇 기계 제어와 유사하게, CUAs가 실제 행동을 수행하는 데 핵심적인 구성 요소이며, 시스템의 성패를 직접 좌우한다. 이는 클릭 및 타이핑과 같은 동작뿐만 아니라 클릭 좌표와 같은 관련 파라미터를 결정한다. 현재의 엔드투엔드 기반화 모델은 ScreenSpot-pro 및 UI-Vision과 같은 도전적인 벤치마크에서 여전히 65% 미만의 정확도를 기록하고 있어, 실질적인 배포에 아직 크게 미흡한 상황이다. 특히 단 한 번의 잘못된 클릭만으로도 수용할 수 없는 결과가 발생할 수 있기 때문이다. 본 연구에서는 기반화 모델의 학습 과정에 대해 실증적인 분석을 수행하였으며, 데이터 수집부터 모델 학습에 이르는 세부 사항을 종합적으로 조사하였다. 그 결과, 에이전트 환경에서 100억 파라미터 이하의 모델 중에서 다섯 가지 기반화 벤치마크에서 최고 성능을 달성하는 Phi-Ground 모델 패밀리를 개발하였다. 엔드투엔드 모델 설정에서도 본 모델은 ScreenSpot-pro에서 \textbf{43.2}, UI-Vision에서 \textbf{27.2}의 점수를 기록하며, 여전히 최고 성능(SOTA)을 유지하고 있다. 본 논문에서 논의한 다양한 세부 사항과 함께, 우리의 성공과 실패 경험은 기반화 모델의 구축을 명확히 이해하는 데 기여할 뿐만 아니라, 다른 인지 작업에도 긍정적인 영향을 줄 것으로 기대된다. 프로젝트 홈페이지:https://zhangmiaosen2000.github.io/Phi-Ground/