BLIP: Bootstrapping Language-Image Pre-training für vereinte visuelle und sprachliche Verarbeitung und Generierung

Vision-Language-Pretraining (VLP) hat die Leistung bei vielen Vision-Sprach-Aufgaben verbessert. Die meisten existierenden vortrainierten Modelle erzielen jedoch nur in entweder verständnisbasierten oder generationsbasierten Aufgaben hervorragende Ergebnisse. Darüber hinaus wurde der Leistungsanstieg größtenteils durch das Erweitern des Datensatzes mit verrauschten Bild-Text-Paaren aus dem Web erreicht, was eine suboptimale Quelle der Überwachung ist. In dieser Arbeit schlagen wir BLIP vor, einen neuen VLP-Rahmen, der sich flexibel sowohl auf Vision-Sprach-Verständnis- als auch auf generationsbasierte Aufgaben überträgt. BLIP nutzt die verrauschten Webdaten effektiv durch das Bootstrapping von Bildunterschriften, wobei ein Captioner synthetische Bildunterschriften generiert und ein Filter die verrauschten entfernt. Wir erzielen den Stand der Technik in einer Vielzahl von Vision-Sprach-Aufgaben, wie zum Beispiel Bild-Text-Retrieval (+2,7 % im durchschnittlichen Recall@1), Bildbeschreibung (+2,8 % im CIDEr-Score) und VQA (+1,6 % im VQA-Score). BLIP zeigt außerdem eine starke Generalisierungsfähigkeit, wenn es direkt auf Video-Sprach-Aufgaben in einem zero-shot-Ansatz übertragen wird. Der Code, die Modelle und die Datensätze werden unter https://github.com/salesforce/BLIP veröffentlicht.