HyperAIHyperAI
il y a 2 mois

ERNIE-ViL 2.0 : Apprentissage contrastif multi-vue pour le pré-entraînement image-texte

Bin Shan; Weichong Yin; Yu Sun; Hao Tian; Hua Wu; Haifeng Wang
ERNIE-ViL 2.0 : Apprentissage contrastif multi-vue pour le pré-entraînement image-texte
Résumé

Les modèles récents de pré-entraînement Vision-Langage (VLP) basés sur des encodeurs duaux ont attiré une attention considérable de la part de l'académie et de l'industrie en raison de leurs performances supérieures dans diverses tâches multimodales et de leur efficacité computationnelle élevée. Ces modèles tentent d'apprendre une représentation multimodale en utilisant l'apprentissage par contraste sur des paires image-texte, mais les corrélations inter-modales établies ne reposent que sur une seule vue pour chaque modalité. En réalité, une image ou un texte contient diverses vues potentielles, tout comme les humains peuvent saisir une scène du monde réel à travers des descriptions variées ou des photos. Dans cet article, nous proposons ERNIE-ViL 2.0, un cadre d'apprentissage par contraste multi-vue visant à construire simultanément des corrélations intra-modales et inter-modales entre différentes vues, dans le but d'apprendre une représentation multimodale plus robuste. Plus précisément, nous construisons plusieurs vues au sein de chaque modalité pour apprendre la corrélation intra-modale afin d'améliorer la représentation mono-modale. Outre les vues visuelles/textuelles inhérentes, nous construisons des séquences d'étiquettes d'objets comme une vue textuelle spéciale pour réduire l'écart sémantique inter-modal sur des paires image-texte bruyantes. Pré-entraîné avec 29 millions de jeux de données publiquement disponibles, ERNIE-ViL 2.0 obtient des résultats compétitifs dans la recherche multimodale en anglais. De plus, pour généraliser notre méthode aux tâches multimodales en chinois, nous avons formé ERNIE-ViL 2.0 en augmentant les jeux de données pré-entraînés à 1,5 milliard de paires image-texte en chinois, ce qui a entraîné des améliorations significatives par rapport aux résultats SOTA précédents dans la recherche multimodale en chinois. Nous mettons nos modèles pré-entraînés à disposition sur https://github.com/PaddlePaddle/ERNIE.注释:SOTA (State Of The Art) - État de l'art

ERNIE-ViL 2.0 : Apprentissage contrastif multi-vue pour le pré-entraînement image-texte | Articles de recherche récents | HyperAI