VeriGUI: 검증 가능한 긴 체인 GUI 데이터셋

최근 연구들은 복잡한 그래픽 사용자 인터페이스(GUI) 기반 컴퓨터 작업을 수행할 수 있는 자율 에이전트를 구축하는 데 집중하고 있으며, 이는 인간과 컴퓨터 간 상호작용을 혁신할 잠재력을 지닌다. 그러나 유망한 성과가 있었음에도 불구하고 기존의 연구는 주로 단기적 상호작용에 초점을 맞추고 있으며, 결과만을 기반으로 한 검증 방식에 의존함으로써, 수백 단계에 걸친 장기적 작업 분해와 실행이 요구되는 실제 GUI 응용 분야에서의 확장성에 한계가 있다. 본 연구에서는 현실적인 컴퓨터 환경에서 작동하는 일반화된 GUI 에이전트의 개발과 평가를 촉진하기 위해, 새로운 검증 가능한 장사슬(GUI) 데이터셋인 VeriGUI를 제안한다. 본 데이터셋은 두 가지 핵심 차원에 중점을 두고 있다. (1) 장사슬 복잡성: 수백 단계에 걸쳐 상호 의존적인 하위 작업으로 분해된 작업을 포함하며, 명시적으로 각 하위 작업이 유효한 시작 지점이 될 수 있도록 설계되었다. (2) 하위 작업 수준의 검증 가능성: 각 하위 작업 내에서 다양한 탐색 전략을 가능하게 하되, 동시에 각 하위 작업의 목표가 검증 가능하고 일관성 있게 유지되도록 보장한다. 이 데이터셋은 데스크탑 및 웹 환경을 아우르는 GUI 작업 트래잭션으로 구성되며, 인간 전문가에 의해 주석이 달렸다. 다양한 기초 모델을 기반으로 한 에이전트를 활용한 VeriGUI에 대한 광범위한 실험 결과, 장기적 작업 처리 능력에서 큰 성능 격차가 드러나며, GUI 에이전트가 보다 견고한 계획 수립 및 의사결정 능력을 갖추어야 함을 시사한다.