Einheitliche visuell-sprachliche Vortrainierung für Bildbeschreibung und VQA

Diese Arbeit präsentiert ein einheitliches Vision-Language-Pre-training (VLP)-Modell. Das Modell ist einheitlich im Sinne von (1) der Fähigkeit, entweder für Aufgaben der Vision-Language-Generierung (z. B. Bildbeschreibung) oder der Vision-Language-Verständnis (z. B. visuelle Fragebeantwortung) fine-tuned zu werden, sowie (2) der Verwendung eines gemeinsamen mehrschichtigen Transformer-Netzwerks sowohl für die Codierung als auch die Dekodierung – im Gegensatz zu vielen bestehenden Ansätzen, bei denen Encoder und Decoder durch getrennte Modelle implementiert werden. Das einheitliche VLP-Modell wird auf einer großen Menge an Bild-Text-Paaren mittels unsupervisierter Lernziele zweier Aufgaben vortrainiert: bidirektionaler und sequenz-zu-Sequenz (seq2seq)-maskierter Vision-Language-Vorhersage. Die beiden Aufgaben unterscheiden sich lediglich darin, auf welchen Kontext die Vorhersage bedingt ist. Dies wird durch die Nutzung spezifischer Selbst-Attention-Masken für das gemeinsame Transformer-Netzwerk gesteuert. So weit uns bekannt ist, ist VLP das erste berichtete Modell, das sowohl auf Aufgaben der Vision-Language-Generierung als auch des Verständnisses – wie beispielsweise Bildbeschreibung und visuelle Fragebeantwortung – state-of-the-art-Ergebnisse auf drei anspruchsvollen Benchmark-Datensätzen erzielt: COCO Captions, Flickr30k Captions und VQA 2.0. Der Quellcode sowie die vortrainierten Modelle sind unter https://github.com/LuoweiZhou/VLP verfügbar.