HyperAIHyperAI
vor 17 Tagen

VeriGUI: Verifizierbarer Langkettengui-Datensatz

Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao
VeriGUI: Verifizierbarer Langkettengui-Datensatz
Abstract

Kürzliche Studien haben sich der Entwicklung autonomer Agenten gewidmet, die komplexe Aufgaben in grafischen Benutzeroberflächen (Graphical User Interface, GUI) bewältigen können, was das Potenzial hat, die Mensch-Computer-Interaktion grundlegend zu verändern. Trotz vielversprechender Ergebnisse konzentrieren sich bestehende Ansätze hauptsächlich auf kurzfristige Interaktionen und setzen auf eine ausschließlich ergebnisbasierte Überprüfung, was ihre Skalierbarkeit in realen GUI-Anwendungen einschränkt, die eine langfristige Aufgabenzerlegung und -ausführung erfordern. In dieser Arbeit stellen wir VeriGUI vor – einen neuartigen, verifizierbaren Datensatz für langkettige GUI-Aufgaben, der die Entwicklung und Evaluation allgemeiner GUI-Agenten in realistischen Computersystemen erleichtern soll. Unser Datensatz betont zwei entscheidende Dimensionen: (1) Langketteng komplexe Aufgaben, die in eine Folge voneinander abhängiger Teil-Aufgaben zerlegt werden, wobei die Aufgaben über Hunderte von Schritten reichen und explizit so gestaltet sind, dass jede Teil-Aufgabe als gültiger Ausgangspunkt dienen kann; sowie (2) verifizierbare Teil-Aufgaben, die eine Vielzahl unterschiedlicher Erkundungsstrategien innerhalb jeder Teil-Aufgabe ermöglichen, während gleichzeitig sichergestellt wird, dass jedes Teil-Aufgabenziel verifizierbar und konsistent bleibt. Der Datensatz umfasst GUI-Aufgabenverläufe sowohl für Desktop- als auch für Web-Umgebungen, die von menschlichen Experten annotiert wurden. Ausführliche Experimente mit verschiedenen Agenten auf Basis unterschiedlicher Grundmodelle zeigen erhebliche Leistungslücken bei der Bewältigung langfristiger Aufgaben und unterstreichen die Notwendigkeit robusterer Planungs- und Entscheidungsfindungsfähigkeiten bei GUI-Agenten.