OmniParser für einen rein visionären GUI-Agenten

Der jüngste Erfolg großer visueller Sprachmodelle zeigt großes Potenzial,das Agentensystem auf Benutzeroberflächen zu treiben. Wir argumentieren jedoch,dass die Leistungsfähigkeit multimodaler Modelle wie GPT-4V als allgemeines Agentensystemauf mehreren Betriebssystemen und in verschiedenen Anwendungen weitgehend unterschätzt wird,aufgrund des Mangels an einer robusten Bildschirmanalysetechnik, die in der Lage ist:1) Interaktive Symbole innerhalb der Benutzeroberfläche zuverlässig zu identifizieren und2) Die Semantik verschiedener Elemente in einem Screenshot zu verstehen und die gewünschte Aktiongenau mit dem entsprechenden Bereich auf dem Bildschirm in Verbindung zu bringen. Um diese Lücken zu schließen,stellen wir OmniParser vor, eine umfassende Methode zur Analyse von Benutzeroberflächenscreenshots in strukturierte Elemente,die die Fähigkeit von GPT-4V erheblich verbessert, Aktionen zu generieren, die präzise im entsprechenden Bereich der Oberfläche verankert sind.Zunächst erstellten wir einen Datensatz zur Erkennung interaktiver Symbole unter Verwendung beliebter Webseitenund einen Datensatz zur Beschreibung von Symbolen. Diese Datensätze wurden verwendet, um spezialisierte Modelle feinzujustieren:ein Detektionsmodell zur Analyse interaktiver Bereiche auf dem Bildschirm und ein Captioning-Modell zur Extraktionder funktionalen Semantik der erkannten Elemente. OmniParser verbessert die Leistung von GPT-4V erheblichim ScreenSpot-Benchmark. In den Benchmarks Mind2Web und AITW übertrifft OmniParser mit nur Screenshot-Eingabedie GPT-4V-Baselines, die zusätzliche Informationen außerhalb des Screenshots benötigen.