HyperAIHyperAI

Command Palette

Search for a command to run...

OmniParser für einen rein visionären GUI-Agenten

Yadong Lu Jianwei Yang Yelong Shen Ahmed Awadallah

Zusammenfassung

Der jüngste Erfolg großer visueller Sprachmodelle zeigt großes Potenzial,das Agentensystem auf Benutzeroberflächen zu treiben. Wir argumentieren jedoch,dass die Leistungsfähigkeit multimodaler Modelle wie GPT-4V als allgemeines Agentensystemauf mehreren Betriebssystemen und in verschiedenen Anwendungen weitgehend unterschätzt wird,aufgrund des Mangels an einer robusten Bildschirmanalysetechnik, die in der Lage ist:1) Interaktive Symbole innerhalb der Benutzeroberfläche zuverlässig zu identifizieren und2) Die Semantik verschiedener Elemente in einem Screenshot zu verstehen und die gewünschte Aktiongenau mit dem entsprechenden Bereich auf dem Bildschirm in Verbindung zu bringen. Um diese Lücken zu schließen,stellen wir OmniParser vor, eine umfassende Methode zur Analyse von Benutzeroberflächenscreenshots in strukturierte Elemente,die die Fähigkeit von GPT-4V erheblich verbessert, Aktionen zu generieren, die präzise im entsprechenden Bereich der Oberfläche verankert sind.Zunächst erstellten wir einen Datensatz zur Erkennung interaktiver Symbole unter Verwendung beliebter Webseitenund einen Datensatz zur Beschreibung von Symbolen. Diese Datensätze wurden verwendet, um spezialisierte Modelle feinzujustieren:ein Detektionsmodell zur Analyse interaktiver Bereiche auf dem Bildschirm und ein Captioning-Modell zur Extraktionder funktionalen Semantik der erkannten Elemente. OmniParser verbessert die Leistung von GPT-4V erheblichim ScreenSpot-Benchmark. In den Benchmarks Mind2Web und AITW übertrifft OmniParser mit nur Screenshot-Eingabedie GPT-4V-Baselines, die zusätzliche Informationen außerhalb des Screenshots benötigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OmniParser für einen rein visionären GUI-Agenten | Paper | HyperAI