il y a 2 mois

BLIP : Amélioration de l'entraînement préalable des modèles langage-image pour une compréhension et une génération unifiées du langage et de la vision

Li, Junnan ; Li, Dongxu ; Xiong, Caiming ; Hoi, Steven

Résumé

Le pré-entraînement Vision-Langue (VLP) a amélioré les performances de nombreuses tâches combinant vision et langage. Cependant, la plupart des modèles pré-entraînés actuels ne se distinguent que dans des tâches basées sur la compréhension ou des tâches basées sur la génération. De plus, l'amélioration des performances a été largement réalisée en augmentant la taille du jeu de données avec des paires image-texte bruyantes collectées sur le web, ce qui constitue une source sous-optimale de supervision. Dans cet article, nous proposons BLIP, un nouveau cadre VLP qui peut être transféré de manière flexible à la fois aux tâches de compréhension et de génération en vision-langue. BLIP utilise efficacement les données bruyantes issues du web par bootstrap des légendes, où un légendeur génère des légendes synthétiques et un filtre élimine celles qui sont bruyantes. Nous obtenons des résultats d'état de l'art sur une large gamme de tâches en vision-langue, telles que la recherche d'images et de textes (+2,7% en moyenne pour recall@1), la légendage d'images (+2,8% en CIDEr) et le Q&R visuel (+1,6% en score VQA). BLIP montre également une forte capacité de généralisation lorsqu'il est transféré directement à des tâches vidéo-langue sans entraînement supervisé supplémentaire (zero-shot). Le code source, les modèles et les jeux de données sont disponibles à l'adresse suivante : https://github.com/salesforce/BLIP.