HyperAIHyperAI

Command Palette

Search for a command to run...

Die digitale Welt wie Menschen sie bewältigen: Universelle visuelle Verankerung für GUI-Agenten

Boyu Gou¹ Ruohan Wang¹ Boyuan Zheng¹ Yanan Xie² Cheng Chang² Yiheng Shu¹ Huan Sun¹ Yu Su¹

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) revolutionieren die Fähigkeiten von grafischen Benutzeroberflächen-Agenten (GUI-Agenten), indem sie deren Übergang von kontrollierten Simulationen zu komplexen, realweltlichen Anwendungen auf verschiedenen Plattformen erleichtern. Die Effektivität dieser Agenten hängt jedoch stark von der Robustheit ihrer Verankerungsfähigkeit ab. Aktuelle GUI-Agenten nutzen vor allem textbasierte Darstellungen wie HTML oder Barrierefreiheitsbäume, die trotz ihrer Nützlichkeit oft Rauschen, Unvollständigkeit und erhöhten Rechenaufwand verursachen.In dieser Arbeit plädieren wir für eine menschenähnliche Inkarnation von GUI-Agenten, die die Umgebung ausschließlich visuell wahrnehmen und direkt pixelgenaue Operationen auf der GUI durchführen. Der Schlüssel liegt in visuellen Verankerungsmodellen, die verschiedene Bezeichnungen von GUI-Elementen präzise auf ihre Koordinaten auf der GUI übertragen können, unabhängig von der Plattform. Wir zeigen, dass ein einfaches Rezept, das webbasierte synthetische Daten und leichte Anpassungen der LLaVA-Architektur umfasst, überraschend effektiv ist, um solche visuellen Verankerungsmodelle zu trainieren.Wir haben den bisher größten Datensatz für die visuelle Verankerung von GUI-Elementen erstellt, der 10 Millionen GUI-Elemente und deren Bezeichnungen über 1,3 Millionen Screenshots enthält. Mit diesem Datensatz trainieren wir UGround, ein leistungsstarkes universelles visuelles Verankerungsmodell für GUI-Agenten. Empirische Ergebnisse an sechs Benchmarks aus drei Kategorien (Verankerung, Offline-Agent und Online-Agent) zeigen, dass 1) UGround bestehende visuelle Verankerungsmodelle für GUI-Agenten erheblich übertrifft – bis zu 20 % absolut – und 2) Agenten mit UGround den Stand der Technik übertreffen, obwohl bestehende Agenten zusätzliche textbasierte Eingaben verwenden, während unsere Agenten nur visuelle Wahrnehmung nutzen.Diese Ergebnisse geben starke Unterstützung für die Machbarkeit und das Potenzial von GUI-Agenten, die sich in der digitalen Welt genauso wie Menschen bewegen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die digitale Welt wie Menschen sie bewältigen: Universelle visuelle Verankerung für GUI-Agenten | Paper | HyperAI