il y a 13 jours

WenLan : Pontiver la Vision et le Langage grâce au Pré-entraînement Multi-Modal à Grande Échelle

Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen

Voir les détails de l'article

WenLan : Pontiver la Vision et le Langage grâce au Pré-entraînement Multi-Modal à Grande Échelle

Résumé

Les modèles de pré-entraînement multi-modaux ont été largement explorés ces dernières années afin de relier vision et langage. Toutefois, la plupart de ces modèles modélisent explicitement l’interaction entre les paires image-texte, en supposant une forte corrélation sémantique entre les modalités image et texte. Étant donné que cette hypothèse forte est souvent invalide dans des scénarios du monde réel, nous avons choisi de modéliser implicitement la corrélation inter-modale pour le pré-entraînement à grande échelle multi-modale, ce qui constitue le cœur du projet chinois « WenLan », mené par notre équipe. Plus précisément, en adoptant une hypothèse de faible corrélation entre les paires image-texte, nous proposons un modèle de pré-entraînement à deux tours appelé BriVL, dans le cadre du apprentissage contrastif inter-modale. Contrairement à CLIP d’OpenAI, qui utilise une méthode de contraste simple, nous avons conçu un algorithme plus avancé en adaptant la méthode récente MoCo au contexte inter-modale. En construisant un grand dictionnaire basé sur une file d’attente, BriVL peut intégrer un plus grand nombre d’échantillons négatifs malgré des ressources GPU limitées. Nous avons également construit un grand jeu de données chinois multi-sources image-texte, baptisé RUC-CAS-WenLan, afin de pré-entraîner notre modèle BriVL. Des expériences étendues montrent que le modèle BriVL pré-entraîné dépasse à la fois UNITER et CLIP d’OpenAI sur diverses tâches en aval.