vor 2 Monaten

Pix2Struct: Screenshot-Parsing als Vortrainierung für die visuelle Sprachverarbeitung

Lee, Kenton ; Joshi, Mandar ; Turc, Iulia ; Hu, Hexiang ; Liu, Fangyu ; Eisenschlos, Julian ; Khandelwal, Urvashi ; Shaw, Peter ; Chang, Ming-Wei ; Toutanova, Kristina

Details der Forschungsarbeit anzeigen

Pix2Struct: Screenshot-Parsing als Vortrainierung für die visuelle Sprachverarbeitung

Abstract

Visuell situierte Sprache ist allgegenwärtig – Quellen reichen von Lehrbüchern mit Diagrammen über Webseiten mit Bildern und Tabellen bis hin zu mobilen Anwendungen mit Schaltflächen und Formularen. Möglicherweise aufgrund dieser Vielfalt haben bisherige Arbeiten in der Regel auf domänenspezifischen Rezepten beruht, bei denen das zugrunde liegende Datenmaterial, die Modellarchitekturen und die Ziele nur begrenzt geteilt wurden. Wir stellen Pix2Struct vor, ein vortrainiertes Bild-zu-Text-Modell für rein visuelles Sprachverständnis, das auf Aufgaben mit visuell situierten Sprachdaten feinjustiert werden kann. Pix2Struct wird durch das Lernen, maskierte Screenshots von Webseiten in vereinfachtes HTML zu parsen, vortrainiert. Das Internet bietet mit seiner Fülle an visuellen Elementen, die klar in der HTML-Struktur widergespiegelt sind, eine große Quelle an Vortrainingsdaten, die sich gut für die Vielfalt der nachgelagerten Aufgaben eignet. Intuitiv umfasst dieses Ziel übliche Vortrainingsignale wie OCR (Optical Character Recognition), Sprachmodellierung und Bildunterschriften. Neben der neuen Vortrainierungsstrategie führen wir eine variable Eingabedarstellung sowie eine flexiblere Integration von Sprache- und Visionseingaben ein, bei denen sprachliche Anweisungen wie Fragen direkt über dem Eingabebild gerendert werden. Zum ersten Mal zeigen wir, dass ein einzelnes vortrainiertes Modell in sechs von neun Aufgaben über vier Bereiche – Dokumente, Illustrationen, Benutzeroberflächen und natürliche Bilder – den aktuellen Stand der Technik erreichen kann.