HyperAIHyperAI

Command Palette

Search for a command to run...

ScreenAI: Ein Seh- und Sprachmodell für die Verständnis von Benutzeroberflächen und Infografiken

Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma

Zusammenfassung

Bildschirmbenutzerschnittstellen (UIs) und Infografiken, die eine ähnliche visuelle Sprache und Designprinzipien teilen, spielen wichtige Rollen in der menschlichen Kommunikation und im Mensch-Maschine-Interaktionsbereich. Wir stellen ScreenAI vor, ein visuelles Sprachmodell, das sich auf das Verständnis von UIs und Infografiken spezialisiert hat. Unser Modell verbessert die PaLI-Architektur durch die flexible Patching-Strategie von pix2struct und wird auf einer einzigartigen Mischung aus Datensätzen trainiert. Im Zentrum dieser Mischung steht eine neuartige Bildschirmannotierungsaufgabe, bei der das Modell die Art und den Standort von UI-Elementen identifizieren muss. Diese Textannotierungen verwenden wir, um Bildschirme für große Sprachmodelle zu beschreiben und automatisch Frage-Antwort-(QA)-, UI-Navigations- und Zusammenfassungs-Datensätze in großem Umfang zu generieren. Wir führen Abstraktionsstudien durch, um den Einfluss dieser Designentscheidungen zu demonstrieren. Mit nur 5 Milliarden Parametern erreicht ScreenAI neue Standesbestimmungen in UI- und infografikbasierten Aufgaben (Mehrseitiges DocVQA, WebSRC, MoTIF und Widget Captioning) sowie neue Spitzenleistungen in anderen Aufgaben (Chart QA, DocVQA und InfographicVQA) im Vergleich zu Modellen vergleichbarer Größe. Schließlich veröffentlichen wir drei neue Datensätze: einen mit Fokus auf die Bildschirmannotierungsaufgabe und zwei weitere mit Fokus auf Frage-Antwort-Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp