VeriGUI: Verifizierbarer Langkettengui-Datensatz

Kürzliche Studien haben sich der Entwicklung autonomer Agenten gewidmet, die komplexe Aufgaben in grafischen Benutzeroberflächen (Graphical User Interface, GUI) bewältigen können, was das Potenzial hat, die Mensch-Computer-Interaktion grundlegend zu verändern. Trotz vielversprechender Ergebnisse konzentrieren sich bestehende Ansätze hauptsächlich auf kurzfristige Interaktionen und setzen auf eine ausschließlich ergebnisbasierte Überprüfung, was ihre Skalierbarkeit in realen GUI-Anwendungen einschränkt, die eine langfristige Aufgabenzerlegung und -ausführung erfordern. In dieser Arbeit stellen wir VeriGUI vor – einen neuartigen, verifizierbaren Datensatz für langkettige GUI-Aufgaben, der die Entwicklung und Evaluation allgemeiner GUI-Agenten in realistischen Computersystemen erleichtern soll. Unser Datensatz betont zwei entscheidende Dimensionen: (1) Langketteng komplexe Aufgaben, die in eine Folge voneinander abhängiger Teil-Aufgaben zerlegt werden, wobei die Aufgaben über Hunderte von Schritten reichen und explizit so gestaltet sind, dass jede Teil-Aufgabe als gültiger Ausgangspunkt dienen kann; sowie (2) verifizierbare Teil-Aufgaben, die eine Vielzahl unterschiedlicher Erkundungsstrategien innerhalb jeder Teil-Aufgabe ermöglichen, während gleichzeitig sichergestellt wird, dass jedes Teil-Aufgabenziel verifizierbar und konsistent bleibt. Der Datensatz umfasst GUI-Aufgabenverläufe sowohl für Desktop- als auch für Web-Umgebungen, die von menschlichen Experten annotiert wurden. Ausführliche Experimente mit verschiedenen Agenten auf Basis unterschiedlicher Grundmodelle zeigen erhebliche Leistungslücken bei der Bewältigung langfristiger Aufgaben und unterstreichen die Notwendigkeit robusterer Planungs- und Entscheidungsfindungsfähigkeiten bei GUI-Agenten.