2일 전

GTA1: GUI 테스트 시간 스케일링 에이전트

Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li

논문 세부 정보 보기 View Code

초록

그래픽 사용자 인터페이스(GUI) 에이전트는 리눅스와 같은 플랫폼을��越하여 시각적 요소와 상호작용하면서 자율적으로 작업을 수행합니다. 구체적으로, 사용자의 지시사항은 각각 GUI와의 상호작용에 해당하는 일련의 행동 제안으로 분해됩니다. 각 행동 후, 에이전트는 업데이트된 GUI 환경을 관찰하여 다음 단계를 계획합니다.그러나 두 가지 주요 문제점이 발생합니다: i) 작업 계획(즉, 행동 제안 시퀀스)에서 모호성을 해결하는 문제로, 여러 유효한 계획이 존재할 수 있으므로 적절한 계획을 선택하는 것이 쉽지 않습니다; ii) 복잡하고 고해상도 인터페이스에서 행동을 정확히 위치시키는 문제, 즉 시각적 대상과 정확하게 상호작용하는 것입니다.본 논문에서는 이러한 두 가지 문제점을 GUI 테스트 시간 확장 에이전트인 GTA1을 통해 조사하였습니다. 첫째, 가장 적합한 행동 제안을 선택하기 위해 테스트 시간 확장 방법을 소개합니다. 각 단계에서 여러 후보 행동 제안들을 샘플링하고 판정 모델을 활용하여 가장 적합한 것을 평가 및 선택합니다. 이 방법은 동시 샘플링을 통해 계산량과 더 나은 결정 품질 사이의 균형을 맞추어 작업 실행 단계를 줄이고 전반적인 성능을 개선합니다. 둘째, 선택된 행동 제안을 해당 시각적 요소에 연결할 때 개선된 정확도를 달성하는 모델을 제안합니다. 우리의 핵심 통찰력은 강화학습(RL)이 내재적인 목적 일치성을 통해 인터페이스 요소에 대한 성공적인 클릭을 보상함으로써 시각적 위치 지정을 촉진한다는 것입니다.실험적으로 본 방법론은 다양한 벤치마크에서 최신 기술 수준의 성능을 달성하였습니다. 예를 들어, GTA1-7B는 Screenspot-Pro, Screenspot-V2, OSWorld-G에서 각각 50.1%, 92.4%, 67.7%의 정확도를 기록하였습니다. 우리 테스트 시간 확장 전략을 적용한 플래너와 함께 사용할 때, OSWorld에서 45.2%의 작업 성공률 등 최신 기술 수준의 에이전트 성능을 보여주었습니다. 우리는 여기서 코드와 모델들을 오픈 소스로 공개하였습니다.注：在翻译中，“跨越平台”被翻译为“플랫폼 간”以更好地符合韩语表达习惯。