HyperAIHyperAI
il y a 17 jours

VeriGUI : Jeu de données Verifiable Long-Chain GUI

Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao
VeriGUI : Jeu de données Verifiable Long-Chain GUI
Résumé

Des études récentes se sont penchées sur la construction d’agents autonomes capables d’effectuer des tâches informatiques complexes basées sur une interface graphique (GUI), ouvrant la voie à une révolution dans l’interaction homme-machine. Malgré des résultats encourageants, les approches existantes se concentrent principalement sur des interactions à court terme et reposent sur une vérification uniquement basée sur les résultats, ce qui limite leur échelle d’application dans des environnements réels de GUI exigeant une décomposition et une exécution de tâches à horizon long. Dans ce travail, nous introduisons VeriGUI, un nouveau jeu de données vérifiable à chaîne longue conçu pour faciliter le développement et l’évaluation d’agents GUI généralistes opérant dans des environnements informatiques réalistes. Notre jeu de données met l’accent sur deux dimensions essentielles : (1) la complexité à chaîne longue, avec des tâches décomposées en une séquence de sous-tâches interdépendantes s’étendant sur des centaines d’étapes, explicitement conçues pour permettre à toute sous-tâche de servir de point de départ valide ; et (2) la vérifiabilité au niveau des sous-tâches, qui permet des stratégies d’exploration diversifiées au sein de chaque sous-tâche, tout en garantissant que chaque objectif au niveau de la sous-tâche reste vérifiable et cohérent. Le jeu de données comprend des trajectoires d’actions GUI sur les environnements de bureau et web, annotées par des experts humains. Des expérimentations étendues sur VeriGUI menées avec divers agents reposant sur différentes architectures fondamentales révèlent des écarts significatifs de performance dans la gestion des tâches à horizon long, soulignant la nécessité de capacités de planification et de prise de décision plus robustes chez les agents GUI.