HyperAIHyperAI

Command Palette

Search for a command to run...

Phi-Ground 기술 보고서: GUI 기반 인식의 발전

초록

다중모달 추론 모델의 발전과 함께, 영화 『아이언맨』의 자비스와 유사한 컴퓨터 사용 에이전트(CUAs)가 현실화되고 있다. GUI 기반화(GUI grounding)는 로봇 기계 제어와 유사하게, CUAs가 실제 행동을 수행하는 데 핵심적인 구성 요소이며, 시스템의 성패를 직접 좌우한다. 이는 클릭 및 타이핑과 같은 동작뿐만 아니라 클릭 좌표와 같은 관련 파라미터를 결정한다. 현재의 엔드투엔드 기반화 모델은 ScreenSpot-pro 및 UI-Vision과 같은 도전적인 벤치마크에서 여전히 65% 미만의 정확도를 기록하고 있어, 실질적인 배포에 아직 크게 미흡한 상황이다. 특히 단 한 번의 잘못된 클릭만으로도 수용할 수 없는 결과가 발생할 수 있기 때문이다. 본 연구에서는 기반화 모델의 학습 과정에 대해 실증적인 분석을 수행하였으며, 데이터 수집부터 모델 학습에 이르는 세부 사항을 종합적으로 조사하였다. 그 결과, 에이전트 환경에서 100억 파라미터 이하의 모델 중에서 다섯 가지 기반화 벤치마크에서 최고 성능을 달성하는 Phi-Ground 모델 패밀리를 개발하였다. 엔드투엔드 모델 설정에서도 본 모델은 ScreenSpot-pro에서 \textbf{43.2}, UI-Vision에서 \textbf{27.2}의 점수를 기록하며, 여전히 최고 성능(SOTA)을 유지하고 있다. 본 논문에서 논의한 다양한 세부 사항과 함께, 우리의 성공과 실패 경험은 기반화 모델의 구축을 명확히 이해하는 데 기여할 뿐만 아니라, 다른 인지 작업에도 긍정적인 영향을 줄 것으로 기대된다. 프로젝트 홈페이지:https://zhangmiaosen2000.github.io/Phi-Ground/


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Phi-Ground 기술 보고서: GUI 기반 인식의 발전 | 문서 | HyperAI초신경