ScreenAI: Ein Seh- und Sprachmodell für die Verständnis von Benutzeroberflächen und Infografiken

Bildschirmbenutzerschnittstellen (UIs) und Infografiken, die eine ähnliche visuelle Sprache und Designprinzipien teilen, spielen wichtige Rollen in der menschlichen Kommunikation und im Mensch-Maschine-Interaktionsbereich. Wir stellen ScreenAI vor, ein visuelles Sprachmodell, das sich auf das Verständnis von UIs und Infografiken spezialisiert hat. Unser Modell verbessert die PaLI-Architektur durch die flexible Patching-Strategie von pix2struct und wird auf einer einzigartigen Mischung aus Datensätzen trainiert. Im Zentrum dieser Mischung steht eine neuartige Bildschirmannotierungsaufgabe, bei der das Modell die Art und den Standort von UI-Elementen identifizieren muss. Diese Textannotierungen verwenden wir, um Bildschirme für große Sprachmodelle zu beschreiben und automatisch Frage-Antwort-(QA)-, UI-Navigations- und Zusammenfassungs-Datensätze in großem Umfang zu generieren. Wir führen Abstraktionsstudien durch, um den Einfluss dieser Designentscheidungen zu demonstrieren. Mit nur 5 Milliarden Parametern erreicht ScreenAI neue Standesbestimmungen in UI- und infografikbasierten Aufgaben (Mehrseitiges DocVQA, WebSRC, MoTIF und Widget Captioning) sowie neue Spitzenleistungen in anderen Aufgaben (Chart QA, DocVQA und InfographicVQA) im Vergleich zu Modellen vergleichbarer Größe. Schließlich veröffentlichen wir drei neue Datensätze: einen mit Fokus auf die Bildschirmannotierungsaufgabe und zwei weitere mit Fokus auf Frage-Antwort-Aufgaben.