GTA1: GUI 테스트 시간 스케일링 에이전트

그래픽 사용자 인터페이스(GUI) 에이전트는 리눅스와 같은 플랫폼을��越하여 시각적 요소와 상호작용하면서 자율적으로 작업을 수행합니다. 구체적으로, 사용자의 지시사항은 각각 GUI와의 상호작용에 해당하는 일련의 행동 제안으로 분해됩니다. 각 행동 후, 에이전트는 업데이트된 GUI 환경을 관찰하여 다음 단계를 계획합니다.그러나 두 가지 주요 문제점이 발생합니다: i) 작업 계획(즉, 행동 제안 시퀀스)에서 모호성을 해결하는 문제로, 여러 유효한 계획이 존재할 수 있으므로 적절한 계획을 선택하는 것이 쉽지 않습니다; ii) 복잡하고 고해상도 인터페이스에서 행동을 정확히 위치시키는 문제, 즉 시각적 대상과 정확하게 상호작용하는 것입니다.본 논문에서는 이러한 두 가지 문제점을 GUI 테스트 시간 확장 에이전트인 GTA1을 통해 조사하였습니다. 첫째, 가장 적합한 행동 제안을 선택하기 위해 테스트 시간 확장 방법을 소개합니다. 각 단계에서 여러 후보 행동 제안들을 샘플링하고 판정 모델을 활용하여 가장 적합한 것을 평가 및 선택합니다. 이 방법은 동시 샘플링을 통해 계산량과 더 나은 결정 품질 사이의 균형을 맞추어 작업 실행 단계를 줄이고 전반적인 성능을 개선합니다. 둘째, 선택된 행동 제안을 해당 시각적 요소에 연결할 때 개선된 정확도를 달성하는 모델을 제안합니다. 우리의 핵심 통찰력은 강화학습(RL)이 내재적인 목적 일치성을 통해 인터페이스 요소에 대한 성공적인 클릭을 보상함으로써 시각적 위치 지정을 촉진한다는 것입니다.실험적으로 본 방법론은 다양한 벤치마크에서 최신 기술 수준의 성능을 달성하였습니다. 예를 들어, GTA1-7B는 Screenspot-Pro, Screenspot-V2, OSWorld-G에서 각각 50.1%, 92.4%, 67.7%의 정확도를 기록하였습니다. 우리 테스트 시간 확장 전략을 적용한 플래너와 함께 사용할 때, OSWorld에서 45.2%의 작업 성공률 등 최신 기술 수준의 에이전트 성능을 보여주었습니다. 우리는 여기서 코드와 모델들을 오픈 소스로 공개하였습니다.注:在翻译中,“跨越平台”被翻译为“플랫폼 간”以更好地符合韩语表达习惯。