HyperAIHyperAI

Command Palette

Search for a command to run...

ActionEngine: Von reaktiven zu programmatischen GUI-Agenten durch Zustandsmaschinen-Speicher

Hongbin Zhong Fazle Faisal Luis França Tanakorn Leesatapornwongsa Adriana Szekeres Kexin Rong Suman Nath

Zusammenfassung

Bisherige graphische Benutzeroberflächen-(GUI-)Agenten arbeiten über schrittweise Aufrufe von Vision-Sprach-Modellen: Sie machen einen Bildschirmfotografie, schließen auf die nächste Aktion, führen diese aus und wiederholen den Prozess auf der neuen Seite. Dies führt zu hohen Kosten und Latenz, die mit der Anzahl der Schlussfolgerungsschritte ansteigen, sowie zu begrenzter Genauigkeit, da keine persistente Speicherung zuvor besuchter Seiten erfolgt.Wir stellen ActionEngine vor, einen trainingsfreien Ansatz, der den Übergang von reaktiver Ausführung zu programmatischer Planung durch eine neuartige zwei-Agenten-Architektur ermöglicht: Ein Crawling-Agent erstellt im Offline-Modus einen aktualisierbaren Zustandsmaschinen-Speicher der GUIs, während ein Execution-Agent diesen Speicher nutzt, um vollständige, ausführbare Python-Programme für die Online-Ausführung zu generieren.Um Robustheit gegenüber sich verändernden Oberflächen sicherzustellen, löst ein Ausführungsfehler eine visionbasierte Re-Grundierungsfallback-Mechanismus aus, der die fehlgeschlagene Aktion repariert und den Speicher aktualisiert.Diese Architektur verbessert sowohl Effizienz als auch Genauigkeit deutlich: Auf Reddit-Aufgaben aus dem WebArena-Benchmark erreicht unser Agent eine Task-Erfolgsquote von 95 %, im Durchschnitt mit nur einer einzigen LLM-Aufruf, im Vergleich zu 66 % bei der stärksten Vision-only-Benchmark-Methode, wobei die Kosten um den Faktor 11,8 sinken und die End-to-End-Latenz sich halbiert.Zusammen ergeben diese Komponenten eine skalierbare und zuverlässige Interaktion mit GUIs durch die Kombination globaler, programmatischer Planung, durch Crawler validierter Aktionstypen sowie knotenbasierter Ausführung mit lokalisiertem Validierung und Reparatur.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp