ShowUI: Ein Modell für GUI-Visuelle Agenten, das Vision, Sprache und Aktion vereint

Die Entwicklung von grafischen Benutzeroberflächen-Assistenten (GUI-Assistenten) bietet erhebliches Potenzial zur Steigerung der Produktivität menschlicher Arbeitsabläufe. Während die meisten Agenten auf sprachlichen Grundlagen basieren und sich auf proprietäre APIs mit textreichen Metadaten (z.B. HTML oder Barrierefreiheitsbaum) stützen, zeigen sie Einschränkungen bei der Wahrnehmung von GUI-Visualisierungen wie Menschen, was die Notwendigkeit für GUI-visuelle Agenten unterstreicht. In dieser Arbeit entwickeln wir ein Modell für Sehen-Sprache-Aktion im digitalen Raum, genannt ShowUI, das folgende Innovationen aufweist: (i) UI-gesteuerte visuelle Tokenauswahl, um Rechenkosten zu reduzieren, indem Screenshots als UI-verknüpfter Graph formuliert werden, ihre überflüssigen Beziehungen adaptiv identifiziert werden und als Kriterium für die Tokenauswahl während der Selbst-Attention-Blöcke dienen; (ii) verzahnte Sehen-Sprache-Aktion-Streaming, das flexible Einheit verschiedener Anforderungen innerhalb von GUI-Aufgaben ermöglicht und eine effektive Verwaltung des visuellen Aktionshistorie in der Navigation oder das Paaren mehrerer Abfrage-Aktions-Sequenzen pro Screenshot zur Verbesserung der Trainings-effizienz ermöglicht; (iii) kleine hochwertige GUI-Anweisungsfolge-Datensätze durch sorgfältige Datenkuration und die Anwendung einer Resampling-Strategie zur Bewältigung erheblicher Datentyp-Unausgewogenheiten. Mit diesen Komponenten erreicht ShowUI, ein leichtgewichtiges Modell mit 2 Milliarden Parametern und 256.000 Datenpunkten, eine starke Genauigkeit von 75,1 % bei der Null-Shot-Screenshot-Grounding. Die UI-gesteuerte Tokenauswahl reduziert zudem während des Trainings um 33 % die Anzahl überflüssiger visueller Tokens und beschleunigt die Leistung um 1,4-fach. Navigationsversuche in verschiedenen Umgebungen wie Web Mind2Web, Mobil AITW und Online MiniWob unterstreichen weiterhin die Effektivität und das Potenzial unseres Modells zur Förderung von GUI-visuellen Agenten. Die Modelle sind unter https://github.com/showlab/ShowUI verfügbar.