vor 8 Monaten

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

Zusammenfassung

Die Entwicklung von grafischen Benutzeroberflächen-Assistenten (GUI-Assistenten) bietet erhebliches Potenzial zur Steigerung der Produktivität menschlicher Arbeitsabläufe. Während die meisten Agenten auf sprachlichen Grundlagen basieren und sich auf proprietäre APIs mit textreichen Metadaten (z.B. HTML oder Barrierefreiheitsbaum) stützen, zeigen sie Einschränkungen bei der Wahrnehmung von GUI-Visualisierungen wie Menschen, was die Notwendigkeit für GUI-visuelle Agenten unterstreicht. In dieser Arbeit entwickeln wir ein Modell für Sehen-Sprache-Aktion im digitalen Raum, genannt ShowUI, das folgende Innovationen aufweist: (i) UI-gesteuerte visuelle Tokenauswahl, um Rechenkosten zu reduzieren, indem Screenshots als UI-verknüpfter Graph formuliert werden, ihre überflüssigen Beziehungen adaptiv identifiziert werden und als Kriterium für die Tokenauswahl während der Selbst-Attention-Blöcke dienen; (ii) verzahnte Sehen-Sprache-Aktion-Streaming, das flexible Einheit verschiedener Anforderungen innerhalb von GUI-Aufgaben ermöglicht und eine effektive Verwaltung des visuellen Aktionshistorie in der Navigation oder das Paaren mehrerer Abfrage-Aktions-Sequenzen pro Screenshot zur Verbesserung der Trainings-effizienz ermöglicht; (iii) kleine hochwertige GUI-Anweisungsfolge-Datensätze durch sorgfältige Datenkuration und die Anwendung einer Resampling-Strategie zur Bewältigung erheblicher Datentyp-Unausgewogenheiten. Mit diesen Komponenten erreicht ShowUI, ein leichtgewichtiges Modell mit 2 Milliarden Parametern und 256.000 Datenpunkten, eine starke Genauigkeit von 75,1 % bei der Null-Shot-Screenshot-Grounding. Die UI-gesteuerte Tokenauswahl reduziert zudem während des Trainings um 33 % die Anzahl überflüssiger visueller Tokens und beschleunigt die Leistung um 1,4-fach. Navigationsversuche in verschiedenen Umgebungen wie Web Mind2Web, Mobil AITW und Online MiniWob unterstreichen weiterhin die Effektivität und das Potenzial unseres Modells zur Förderung von GUI-visuellen Agenten. Die Modelle sind unter https://github.com/showlab/ShowUI verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Bildverstehen

Mensch-Computer-Interaktion

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Bildverstehen

Mensch-Computer-Interaktion

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ShowUI: Ein Modell für GUI-Visuelle Agenten, das Vision, Sprache und Aktion vereint

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ShowUI: Ein Modell für GUI-Visuelle Agenten, das Vision, Sprache und Aktion vereint

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ShowUI: Ein Modell für GUI-Visuelle Agenten, das Vision, Sprache und Aktion vereint

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters