Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion

Die Automatisierung von GUI-Aufgaben bleibt aufgrund der Abhängigkeit von textuellen Darstellungen, plattformspezifischen Aktionen und begrenzten Schließungsfähigkeiten herausfordernd. Wir stellen Aguvis vor, ein einheitliches, visionäres Framework für autonome GUI-Agenten, das direkt auf Bildschirmabbildungen operiert, plattformübergreifende Interaktionen standardisiert und durch innere Monologe strukturiertes Denken einbezieht. Um dies zu ermöglichen, haben wir die Aguvis-Datenbank erstellt, eine umfangreiche Datensammlung mit multimodalen Grundlagen und Schließungsannotations, und einen zweistufigen Trainingsprozess entwickelt, der die GUI-Grundlagen von Planung und Schließung trennt. Experimente zeigen, dass Aguvis sowohl in Offline- als auch in Online-Benchmarks in der realen Welt Spitzenleistungen erzielt und damit der erste vollständig autonome, visionäre GUI-Agent ist, der ohne proprietäre Modelle arbeitet. Wir stellen alle Datensätze, Modelle und Trainingsrezepte unter https://aguvis-project.github.io zur Verfügung, um zukünftige Forschungen zu fördern.