HyperAIHyperAI

Command Palette

Search for a command to run...

Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Zusammenfassung

Die Automatisierung von GUI-Aufgaben bleibt aufgrund der Abhängigkeit von textuellen Darstellungen, plattformspezifischen Aktionen und begrenzten Schließungsfähigkeiten herausfordernd. Wir stellen Aguvis vor, ein einheitliches, visionäres Framework für autonome GUI-Agenten, das direkt auf Bildschirmabbildungen operiert, plattformübergreifende Interaktionen standardisiert und durch innere Monologe strukturiertes Denken einbezieht. Um dies zu ermöglichen, haben wir die Aguvis-Datenbank erstellt, eine umfangreiche Datensammlung mit multimodalen Grundlagen und Schließungsannotations, und einen zweistufigen Trainingsprozess entwickelt, der die GUI-Grundlagen von Planung und Schließung trennt. Experimente zeigen, dass Aguvis sowohl in Offline- als auch in Online-Benchmarks in der realen Welt Spitzenleistungen erzielt und damit der erste vollständig autonome, visionäre GUI-Agent ist, der ohne proprietäre Modelle arbeitet. Wir stellen alle Datensätze, Modelle und Trainingsrezepte unter https://aguvis-project.github.io zur Verfügung, um zukünftige Forschungen zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion | Paper | HyperAI