17일 전

VeriGUI: 검증 가능한 긴 체인 GUI 데이터셋

Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao

논문 세부 정보 보기 View Code

초록

최근 연구들은 복잡한 그래픽 사용자 인터페이스(GUI) 기반 컴퓨터 작업을 수행할 수 있는 자율 에이전트를 구축하는 데 집중하고 있으며, 이는 인간과 컴퓨터 간 상호작용을 혁신할 잠재력을 지닌다. 그러나 유망한 성과가 있었음에도 불구하고 기존의 연구는 주로 단기적 상호작용에 초점을 맞추고 있으며, 결과만을 기반으로 한 검증 방식에 의존함으로써, 수백 단계에 걸친 장기적 작업 분해와 실행이 요구되는 실제 GUI 응용 분야에서의 확장성에 한계가 있다. 본 연구에서는 현실적인 컴퓨터 환경에서 작동하는 일반화된 GUI 에이전트의 개발과 평가를 촉진하기 위해, 새로운 검증 가능한 장사슬(GUI) 데이터셋인 VeriGUI를 제안한다. 본 데이터셋은 두 가지 핵심 차원에 중점을 두고 있다. (1) 장사슬 복잡성: 수백 단계에 걸쳐 상호 의존적인 하위 작업으로 분해된 작업을 포함하며, 명시적으로 각 하위 작업이 유효한 시작 지점이 될 수 있도록 설계되었다. (2) 하위 작업 수준의 검증 가능성: 각 하위 작업 내에서 다양한 탐색 전략을 가능하게 하되, 동시에 각 하위 작업의 목표가 검증 가능하고 일관성 있게 유지되도록 보장한다. 이 데이터셋은 데스크탑 및 웹 환경을 아우르는 GUI 작업 트래잭션으로 구성되며, 인간 전문가에 의해 주석이 달렸다. 다양한 기초 모델을 기반으로 한 에이전트를 활용한 VeriGUI에 대한 광범위한 실험 결과, 장기적 작업 처리 능력에서 큰 성능 격차가 드러나며, GUI 에이전트가 보다 견고한 계획 수립 및 의사결정 능력을 갖추어야 함을 시사한다.