WenLan : Pontiver la Vision et le Langage grâce au Pré-entraînement Multi-Modal à Grande Échelle

Les modèles de pré-entraînement multi-modaux ont été largement explorés ces dernières années afin de relier vision et langage. Toutefois, la plupart de ces modèles modélisent explicitement l’interaction entre les paires image-texte, en supposant une forte corrélation sémantique entre les modalités image et texte. Étant donné que cette hypothèse forte est souvent invalide dans des scénarios du monde réel, nous avons choisi de modéliser implicitement la corrélation inter-modale pour le pré-entraînement à grande échelle multi-modale, ce qui constitue le cœur du projet chinois « WenLan », mené par notre équipe. Plus précisément, en adoptant une hypothèse de faible corrélation entre les paires image-texte, nous proposons un modèle de pré-entraînement à deux tours appelé BriVL, dans le cadre du apprentissage contrastif inter-modale. Contrairement à CLIP d’OpenAI, qui utilise une méthode de contraste simple, nous avons conçu un algorithme plus avancé en adaptant la méthode récente MoCo au contexte inter-modale. En construisant un grand dictionnaire basé sur une file d’attente, BriVL peut intégrer un plus grand nombre d’échantillons négatifs malgré des ressources GPU limitées. Nous avons également construit un grand jeu de données chinois multi-sources image-texte, baptisé RUC-CAS-WenLan, afin de pré-entraîner notre modèle BriVL. Des expériences étendues montrent que le modèle BriVL pré-entraîné dépasse à la fois UNITER et CLIP d’OpenAI sur diverses tâches en aval.