HyperAIHyperAI

Command Palette

Search for a command to run...

Pix2Struct: Screenshot-Parsing als Vortrainierung für die visuelle Sprachverarbeitung

Zusammenfassung

Visuell situierte Sprache ist allgegenwärtig – Quellen reichen von Lehrbüchern mit Diagrammen über Webseiten mit Bildern und Tabellen bis hin zu mobilen Anwendungen mit Schaltflächen und Formularen. Möglicherweise aufgrund dieser Vielfalt haben bisherige Arbeiten in der Regel auf domänenspezifischen Rezepten beruht, bei denen das zugrunde liegende Datenmaterial, die Modellarchitekturen und die Ziele nur begrenzt geteilt wurden. Wir stellen Pix2Struct vor, ein vortrainiertes Bild-zu-Text-Modell für rein visuelles Sprachverständnis, das auf Aufgaben mit visuell situierten Sprachdaten feinjustiert werden kann. Pix2Struct wird durch das Lernen, maskierte Screenshots von Webseiten in vereinfachtes HTML zu parsen, vortrainiert. Das Internet bietet mit seiner Fülle an visuellen Elementen, die klar in der HTML-Struktur widergespiegelt sind, eine große Quelle an Vortrainingsdaten, die sich gut für die Vielfalt der nachgelagerten Aufgaben eignet. Intuitiv umfasst dieses Ziel übliche Vortrainingsignale wie OCR (Optical Character Recognition), Sprachmodellierung und Bildunterschriften. Neben der neuen Vortrainierungsstrategie führen wir eine variable Eingabedarstellung sowie eine flexiblere Integration von Sprache- und Visionseingaben ein, bei denen sprachliche Anweisungen wie Fragen direkt über dem Eingabebild gerendert werden. Zum ersten Mal zeigen wir, dass ein einzelnes vortrainiertes Modell in sechs von neun Aufgaben über vier Bereiche – Dokumente, Illustrationen, Benutzeroberflächen und natürliche Bilder – den aktuellen Stand der Technik erreichen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp