HyperAIHyperAI

Command Palette

Search for a command to run...

VeriGUI: Verifizierbarer Langkettengui-Datensatz

Zusammenfassung

Kürzliche Studien haben sich der Entwicklung autonomer Agenten gewidmet, die komplexe Aufgaben in grafischen Benutzeroberflächen (Graphical User Interface, GUI) bewältigen können, was das Potenzial hat, die Mensch-Computer-Interaktion grundlegend zu verändern. Trotz vielversprechender Ergebnisse konzentrieren sich bestehende Ansätze hauptsächlich auf kurzfristige Interaktionen und setzen auf eine ausschließlich ergebnisbasierte Überprüfung, was ihre Skalierbarkeit in realen GUI-Anwendungen einschränkt, die eine langfristige Aufgabenzerlegung und -ausführung erfordern. In dieser Arbeit stellen wir VeriGUI vor – einen neuartigen, verifizierbaren Datensatz für langkettige GUI-Aufgaben, der die Entwicklung und Evaluation allgemeiner GUI-Agenten in realistischen Computersystemen erleichtern soll. Unser Datensatz betont zwei entscheidende Dimensionen: (1) Langketteng komplexe Aufgaben, die in eine Folge voneinander abhängiger Teil-Aufgaben zerlegt werden, wobei die Aufgaben über Hunderte von Schritten reichen und explizit so gestaltet sind, dass jede Teil-Aufgabe als gültiger Ausgangspunkt dienen kann; sowie (2) verifizierbare Teil-Aufgaben, die eine Vielzahl unterschiedlicher Erkundungsstrategien innerhalb jeder Teil-Aufgabe ermöglichen, während gleichzeitig sichergestellt wird, dass jedes Teil-Aufgabenziel verifizierbar und konsistent bleibt. Der Datensatz umfasst GUI-Aufgabenverläufe sowohl für Desktop- als auch für Web-Umgebungen, die von menschlichen Experten annotiert wurden. Ausführliche Experimente mit verschiedenen Agenten auf Basis unterschiedlicher Grundmodelle zeigen erhebliche Leistungslücken bei der Bewältigung langfristiger Aufgaben und unterstreichen die Notwendigkeit robusterer Planungs- und Entscheidungsfindungsfähigkeiten bei GUI-Agenten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VeriGUI: Verifizierbarer Langkettengui-Datensatz | Paper | HyperAI