BLIP-2: Bootstrapping Language-Image Pre-training mit gefrorenen Bildencodern und großen Sprachmodellen

Die Kosten für die visuelle und sprachliche Vorabtrainings sind aufgrund des end-to-end Trainings von großen Modellen zunehmend unerschwinglich geworden. In dieser Arbeit wird BLIP-2 vorgeschlagen, eine allgemeine und effiziente Vorabtrainingsstrategie, die das visuelle und sprachliche Vorabtraining durch den Einsatz vorab trainierter, gefrierter Bildencoder und großer, gefrierter Sprachmodelle initiiert. BLIP-2 überbrückt die Modalitätslücke mit einem leichten Querying Transformer, der in zwei Phasen vorab trainiert wird. In der ersten Phase wird das Lernen von visuellen und sprachlichen Repräsentationen durch einen gefrierten Bildencoder initiiert. In der zweiten Phase wird das generative Lernen von Vision zu Sprache durch ein gefriertes Sprachmodell initiiert. Trotz einer deutlich geringeren Anzahl an trainierbaren Parametern erreicht BLIP-2 den Stand der Technik in verschiedenen visuellsprachlichen Aufgaben. Zum Beispiel übertrifft unser Modell Flamingo80B um 8,7 % bei der zero-shot VQAv2-Aufgabe mit 54-mal weniger trainierbaren Parametern. Wir demonstrieren außerdem die neu entstandenen Fähigkeiten des Modells zur zero-shot Bild-zu-Text-Generierung, die natürlichsprachlichen Anweisungen folgen kann.