Bild als Fremdsprache: BEiT-Vorkenntnis für alle visuellen und visuell-sprachlichen Aufgaben

Eine große Konvergenz von Sprache, Vision und multimodalem Vortraining ist im Entstehen. In dieser Arbeit stellen wir ein allgemeines multimodales Grundmodell BEiT-3 vor, das den aktuellen Stand der Technik bei der Transferleistung sowohl in visuellen als auch in visuellsprachlichen Aufgaben erreicht. Insbesondere fördern wir die große Konvergenz in drei Bereichen: Rückgratarchitektur, Vortrainingaufgabe und Modellskalierung. Wir führen Multiway-Transformers für allgemeine Modellierung ein, wobei die modulare Architektur sowohl eine tiefe Fusion als auch eine modalspezifische Kodierung ermöglicht. Basierend auf dem gemeinsamen Rückgrat führen wir maskiertes „Sprach“-Modelling auf Bildern (Imglish), Texten (Englisch) und Bild-Text-Paaren („parallelen Sätzen“) in einheitlicher Weise durch. Experimentelle Ergebnisse zeigen, dass BEiT-3 den aktuellen Stand der Technik in Objekterkennung (COCO), semantischer Segmentierung (ADE20K), Bildklassifikation (ImageNet), visuellem Schließen (NLVR2), visueller Fragebeantwortung (VQAv2), Bildunterschriftenerstellung (COCO) und cross-modalem Retrieval (Flickr30K, COCO) erreicht.