Unicoder-VL: Ein universeller Encoder für Vision und Sprache durch kreuzmodales Vortraining

Wir schlagen Unicoder-VL vor, einen universellen Encoder, der darauf abzielt, gemeinsame Repräsentationen von Vision und Sprache in einem prätrainierten Verfahren zu erlernen. Inspiriert von cross-lingualen prätrainierten Modellen wie XLM und Unicoder werden sowohl visuelle als auch sprachliche Inhalte in ein mehrschichtiges Transformer-Modell für das cross-modale Prätraining eingegeben, wobei drei Prätraining-Aufgaben verwendet werden: Masked Language Modeling (MLM), Masked Object Classification (MOC) und Visual-linguistic Matching (VLM). Die ersten beiden Aufgaben lernen kontextsensitive Repräsentationen für die Eingabetoken auf Basis von sprachlichen und visuellen Inhalten gemeinsam. Die letzte Aufgabe versucht vorherzusagen, ob ein Bild und ein Text sich gegenseitig beschreiben. Nach dem Prätraining auf großen Mengen von Bild-Beschreibungspaaren übertragen wir Unicoder-VL auf bildbasierte Text-Bild-Retrieval und visuelle Alltagsverstandesfähigkeit mit nur einer zusätzlichen Ausgabeschicht. Wir erzielen state-of-the-art oder vergleichbare Ergebnisse in beiden Aufgaben und zeigen die leistungsstarke Fähigkeit des cross-modalen Prätrainings.