HyperAIHyperAI

Command Palette

Search for a command to run...

BLIP : Amélioration de l'entraînement préalable des modèles langage-image pour une compréhension et une génération unifiées du langage et de la vision

Zihang Dai Yonghui Wu Chengkai Zhang Qiwei Li Yiming Yang Xun Huang Zhiheng Huang Yonghong Li

Résumé

Le pré-entraînement Vision-Langue (VLP) a amélioré les performances de nombreuses tâches combinant vision et langage. Cependant, la plupart des modèles pré-entraînés actuels ne se distinguent que dans des tâches basées sur la compréhension ou des tâches basées sur la génération. De plus, l'amélioration des performances a été largement réalisée en augmentant la taille du jeu de données avec des paires image-texte bruyantes collectées sur le web, ce qui constitue une source sous-optimale de supervision. Dans cet article, nous proposons BLIP, un nouveau cadre VLP qui peut être transféré de manière flexible à la fois aux tâches de compréhension et de génération en vision-langue. BLIP utilise efficacement les données bruyantes issues du web par bootstrap des légendes, où un légendeur génère des légendes synthétiques et un filtre élimine celles qui sont bruyantes. Nous obtenons des résultats d'état de l'art sur une large gamme de tâches en vision-langue, telles que la recherche d'images et de textes (+2,7% en moyenne pour recall@1), la légendage d'images (+2,8% en CIDEr) et le Q&R visuel (+1,6% en score VQA). BLIP montre également une forte capacité de généralisation lorsqu'il est transféré directement à des tâches vidéo-langue sans entraînement supervisé supplémentaire (zero-shot). Le code source, les modèles et les jeux de données sont disponibles à l'adresse suivante : https://github.com/salesforce/BLIP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp