Command Palette
Search for a command to run...
ActionEngine: Von reaktiven zu programmatischen GUI-Agenten durch Zustandsmaschinen-Speicher
ActionEngine: Von reaktiven zu programmatischen GUI-Agenten durch Zustandsmaschinen-Speicher
Hongbin Zhong Fazle Faisal Luis França Tanakorn Leesatapornwongsa Adriana Szekeres Kexin Rong Suman Nath
Zusammenfassung
Bisherige graphische Benutzeroberflächen-(GUI-)Agenten arbeiten über schrittweise Aufrufe von Vision-Sprach-Modellen: Sie machen einen Bildschirmfotografie, schließen auf die nächste Aktion, führen diese aus und wiederholen den Prozess auf der neuen Seite. Dies führt zu hohen Kosten und Latenz, die mit der Anzahl der Schlussfolgerungsschritte ansteigen, sowie zu begrenzter Genauigkeit, da keine persistente Speicherung zuvor besuchter Seiten erfolgt.Wir stellen ActionEngine vor, einen trainingsfreien Ansatz, der den Übergang von reaktiver Ausführung zu programmatischer Planung durch eine neuartige zwei-Agenten-Architektur ermöglicht: Ein Crawling-Agent erstellt im Offline-Modus einen aktualisierbaren Zustandsmaschinen-Speicher der GUIs, während ein Execution-Agent diesen Speicher nutzt, um vollständige, ausführbare Python-Programme für die Online-Ausführung zu generieren.Um Robustheit gegenüber sich verändernden Oberflächen sicherzustellen, löst ein Ausführungsfehler eine visionbasierte Re-Grundierungsfallback-Mechanismus aus, der die fehlgeschlagene Aktion repariert und den Speicher aktualisiert.Diese Architektur verbessert sowohl Effizienz als auch Genauigkeit deutlich: Auf Reddit-Aufgaben aus dem WebArena-Benchmark erreicht unser Agent eine Task-Erfolgsquote von 95 %, im Durchschnitt mit nur einer einzigen LLM-Aufruf, im Vergleich zu 66 % bei der stärksten Vision-only-Benchmark-Methode, wobei die Kosten um den Faktor 11,8 sinken und die End-to-End-Latenz sich halbiert.Zusammen ergeben diese Komponenten eine skalierbare und zuverlässige Interaktion mit GUIs durch die Kombination globaler, programmatischer Planung, durch Crawler validierter Aktionstypen sowie knotenbasierter Ausführung mit lokalisiertem Validierung und Reparatur.