il y a 17 jours

ALIP : Pré-entraînement adaptatif langage-image avec des légendes synthétiques

Kaicheng Yang, Jiankang Deng, Xiang An, Jiawei Li, Ziyong Feng, Jia Guo, Jing Yang, Tongliang Liu

Résumé

Le pré-entraînement contrastif image-texte (Contrastive Language-Image Pre-training, CLIP) a considérablement amélioré les performances de nombreuses tâches vision-langage en élargissant massivement le jeu de données grâce à des paires image-texte collectées sur le web. Toutefois, la présence de bruit intrinsèque et de paires image-texte non correspondantes dans les données web peut potentiellement nuire à l’apprentissage des représentations. Pour atténuer ce problème, nous utilisons tout d’abord le modèle OFA afin de générer des légendes synthétiques centrées sur le contenu visuel des images. Ces légendes synthétiques contiennent des informations complémentaires bénéfiques au pré-entraînement. Ensuite, nous proposons un modèle d’entraînement adaptatif image-texte (Adaptive Language-Image Pre-training, ALIP), un modèle à deux voies intégrant une supervision à la fois à partir du texte brut et des légendes synthétiques. En tant que composants centraux d’ALIP, la porte de cohérence linguistique (Language Consistency Gate, LCG) et la porte de cohérence de description (Description Consistency Gate, DCG) ajustent dynamiquement les poids des échantillons ainsi que des paires image-texte/légende pendant le processus d’entraînement. Parallèlement, la perte contrastive adaptative permet efficacement de réduire l’impact des données bruitées et d’améliorer l’efficacité des données d’entraînement. Nous validons ALIP à l’aide d’expériences menées sur des modèles et jeux de données de pré-entraînement de différentes tailles. Les résultats expérimentaux montrent que ALIP atteint des performances de pointe sur plusieurs tâches en aval, notamment la recherche image-texte en mode zéro-shot et le sondage linéaire. Pour faciliter les recherches futures, le code source et les modèles pré-entraînés sont mis à disposition à l’adresse suivante : https://github.com/deepglint/ALIP.