vor 2 Monaten

ImageBERT: Kreuzmodales Vortraining mit groß angelegten schwach überwachten Bild-Text-Daten

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti

Abstract

In dieser Arbeit stellen wir ein neues visuell-sprachliches vortrainiertes Modell – ImageBERT – für die gemeinsame Einbettung von Bildern und Texten vor. Unser Modell basiert auf dem Transformer-Architekturprinzip und verarbeitet verschiedene Modalitäten als Eingabe, um deren Beziehung zu modellieren. Das Modell wird gleichzeitig in vier Aufgaben vortrainiert: Maskierte Sprachmodellierung (Masked Language Modeling, MLM), Maskierte Objektklassifizierung (Masked Object Classification, MOC), Maskierte Regionenmerkmalsregression (Masked Region Feature Regression, MRFR) und Bild-Text-Matching (Image Text Matching, ITM). Um die Qualität des Vortrainings weiter zu verbessern, haben wir einen Large-scale weAk-supervised Image-Text (LAIT)-Datensatz aus dem Web gesammelt. Wir vortrainieren das Modell zunächst anhand dieses Datensatzes und führen dann eine zweite Vortrainierungsphase mit den Conceptual Captions und den SBU Captions durch. Unsere Experimente zeigen, dass die mehrstufige Vortrainierungsstrategie der einstufigen überlegen ist. Des Weiteren feinjustieren und evaluieren wir unser vortrainiertes ImageBERT-Modell in Aufgaben der Bildsuche und Textsuche und erzielen dabei neue Stand der Technik-Ergebnisse sowohl im MSCOCO- als auch im Flickr30k-Datensatz.