vor 8 Monaten

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Zusammenfassung

Die Automatisierung von GUI-Aufgaben bleibt aufgrund der Abhängigkeit von textuellen Darstellungen, plattformspezifischen Aktionen und begrenzten Schließungsfähigkeiten herausfordernd. Wir stellen Aguvis vor, ein einheitliches, visionäres Framework für autonome GUI-Agenten, das direkt auf Bildschirmabbildungen operiert, plattformübergreifende Interaktionen standardisiert und durch innere Monologe strukturiertes Denken einbezieht. Um dies zu ermöglichen, haben wir die Aguvis-Datenbank erstellt, eine umfangreiche Datensammlung mit multimodalen Grundlagen und Schließungsannotations, und einen zweistufigen Trainingsprozess entwickelt, der die GUI-Grundlagen von Planung und Schließung trennt. Experimente zeigen, dass Aguvis sowohl in Offline- als auch in Online-Benchmarks in der realen Welt Spitzenleistungen erzielt und damit der erste vollständig autonome, visionäre GUI-Agent ist, der ohne proprietäre Modelle arbeitet. Wir stellen alle Datensätze, Modelle und Trainingsrezepte unter https://aguvis-project.github.io zur Verfügung, um zukünftige Forschungen zu fördern.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Agent

Mensch-Computer-Interaktion

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Agent

Mensch-Computer-Interaktion

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Aguvis: Einheitliche reine Visuelle Agenten für autonome GUI-Interaktion

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters