vor 2 Monaten

Die digitale Welt wie Menschen sie bewältigen: Universelle visuelle Verankerung für GUI-Agenten

Gou, Boyu ; Wang, Ruohan ; Zheng, Boyuan ; Xie, Yanan ; Chang, Cheng ; Shu, Yiheng ; Sun, Huan ; Su, Yu

Abstract

Multimodale große Sprachmodelle (MLLMs) revolutionieren die Fähigkeiten von grafischen Benutzeroberflächen-Agenten (GUI-Agenten), indem sie deren Übergang von kontrollierten Simulationen zu komplexen, realweltlichen Anwendungen auf verschiedenen Plattformen erleichtern. Die Effektivität dieser Agenten hängt jedoch stark von der Robustheit ihrer Verankerungsfähigkeit ab. Aktuelle GUI-Agenten nutzen vor allem textbasierte Darstellungen wie HTML oder Barrierefreiheitsbäume, die trotz ihrer Nützlichkeit oft Rauschen, Unvollständigkeit und erhöhten Rechenaufwand verursachen.In dieser Arbeit plädieren wir für eine menschenähnliche Inkarnation von GUI-Agenten, die die Umgebung ausschließlich visuell wahrnehmen und direkt pixelgenaue Operationen auf der GUI durchführen. Der Schlüssel liegt in visuellen Verankerungsmodellen, die verschiedene Bezeichnungen von GUI-Elementen präzise auf ihre Koordinaten auf der GUI übertragen können, unabhängig von der Plattform. Wir zeigen, dass ein einfaches Rezept, das webbasierte synthetische Daten und leichte Anpassungen der LLaVA-Architektur umfasst, überraschend effektiv ist, um solche visuellen Verankerungsmodelle zu trainieren.Wir haben den bisher größten Datensatz für die visuelle Verankerung von GUI-Elementen erstellt, der 10 Millionen GUI-Elemente und deren Bezeichnungen über 1,3 Millionen Screenshots enthält. Mit diesem Datensatz trainieren wir UGround, ein leistungsstarkes universelles visuelles Verankerungsmodell für GUI-Agenten. Empirische Ergebnisse an sechs Benchmarks aus drei Kategorien (Verankerung, Offline-Agent und Online-Agent) zeigen, dass 1) UGround bestehende visuelle Verankerungsmodelle für GUI-Agenten erheblich übertrifft – bis zu 20 % absolut – und 2) Agenten mit UGround den Stand der Technik übertreffen, obwohl bestehende Agenten zusätzliche textbasierte Eingaben verwenden, während unsere Agenten nur visuelle Wahrnehmung nutzen.Diese Ergebnisse geben starke Unterstützung für die Machbarkeit und das Potenzial von GUI-Agenten, die sich in der digitalen Welt genauso wie Menschen bewegen.