HyperAIHyperAI
vor 2 Monaten

Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion

Xu, Yiheng ; Wang, Zekun ; Wang, Junli ; Lu, Dunjie ; Xie, Tianbao ; Saha, Amrita ; Sahoo, Doyen ; Yu, Tao ; Xiong, Caiming
Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion
Abstract

Die Automatisierung von GUI-Aufgaben bleibt aufgrund der Abhängigkeit von textuellen Darstellungen, plattformspezifischen Aktionen und begrenzten Schließungsfähigkeiten herausfordernd. Wir stellen Aguvis vor, ein einheitliches, visionäres Framework für autonome GUI-Agenten, das direkt auf Bildschirmabbildungen operiert, plattformübergreifende Interaktionen standardisiert und durch innere Monologe strukturiertes Denken einbezieht. Um dies zu ermöglichen, haben wir die Aguvis-Datenbank erstellt, eine umfangreiche Datensammlung mit multimodalen Grundlagen und Schließungsannotations, und einen zweistufigen Trainingsprozess entwickelt, der die GUI-Grundlagen von Planung und Schließung trennt. Experimente zeigen, dass Aguvis sowohl in Offline- als auch in Online-Benchmarks in der realen Welt Spitzenleistungen erzielt und damit der erste vollständig autonome, visionäre GUI-Agent ist, der ohne proprietäre Modelle arbeitet. Wir stellen alle Datensätze, Modelle und Trainingsrezepte unter https://aguvis-project.github.io zur Verfügung, um zukünftige Forschungen zu fördern.

Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion | Neueste Forschungsarbeiten | HyperAI