vor 8 Monaten

Zusammenfassung

Digitale Agenten zur Automatisierung von Aufgaben auf verschiedenen Plattformen durch direkte Manipulation der GUIs gewinnen zunehmend an Bedeutung. Für diese Agenten bleibt die Verankerung von Sprachanweisungen auf Ziellemente ein erhebliches Problem aufgrund der Abhängigkeit von HTML- oder AXTree-Eingaben. In dieser Arbeit stellen wir Aria-UI vor, ein großes multimodales Modell, das speziell für die GUI-Verankerung entwickelt wurde. Aria-UI verwendet einen rein visuellen Ansatz und verzichtet auf die Nutzung von zusätzlichen Eingaben. Um sich an heterogene Planungsanweisungen anzupassen, schlagen wir eine skalierbare Datenpipeline vor, die vielfältige und hochwertige Anweisungsbeispiele für die Verankerung synthetisiert. Um dynamische Kontexte bei der Aufgabenerledigung zu bewältigen, integriert Aria-UI textuelle und text-bildliche interlineare Aktionsverläufe, was robustes kontextbewusstes Schließen für die Verankerung ermöglicht. Aria-UI erzielt neue Standarteergebnisse in offline- und online-Agentenbenchmarks und übertrifft sowohl reine visuelle als auch AXTree-abhängige Baseline-Modelle. Wir veröffentlichen alle Trainingsdaten und Modellcheckpoints unter https://ariaui.github.io, um weitere Forschungen zu fördern.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Agent

Mensch-Computer-Interaktion

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Agent

Mensch-Computer-Interaktion

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Aria-UI: Visuelle Verankerung für GUI-Anweisungen | Paper | HyperAI

Command Palette

Aria-UI: Visuelle Verankerung für GUI-Anweisungen

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Aria-UI: Visuelle Verankerung für GUI-Anweisungen

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Aria-UI: Visuelle Verankerung für GUI-Anweisungen

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters