HyperAIHyperAI
il y a 2 mois

Vers une pré-formation intégrée en maximisant l'information mutuelle multi-modale

Su, Weijie ; Zhu, Xizhou ; Tao, Chenxin ; Lu, Lewei ; Li, Bin ; Huang, Gao ; Qiao, Yu ; Wang, Xiaogang ; Zhou, Jie ; Dai, Jifeng
Vers une pré-formation intégrée en maximisant l'information mutuelle multi-modale
Résumé

Pour exploiter efficacement le potentiel des modèles à grande échelle, diverses stratégies de pré-entraînement soutenues par de vastes données provenant de différentes sources sont proposées, notamment le pré-entraînement supervisé, le pré-entraînement faiblement supervisé et le pré-entraînement auto-supervisé. Il a été démontré que la combinaison de plusieurs stratégies de pré-entraînement et de données issues de différentes modalités/sources peut considérablement améliorer l'entraînement des modèles à grande échelle. Cependant, les travaux actuels adoptent un système de pré-entraînement en plusieurs étapes, où la complexité du pipeline peut augmenter l'incertitude et l'instabilité du pré-entraînement. Il est donc souhaitable d'intégrer ces stratégies dans une approche mono-étape. Dans cet article, nous proposons d'abord une formule générale d'information mutuelle multi-modale comme objectif d'optimisation unifié et montrons que toutes les approches existantes sont des cas particuliers de notre cadre théorique. À partir de cette perspective unifiée, nous proposons une approche de pré-entraînement mono-étape intégrant tous les aspects, nommée Maximizing Multi-modal Mutual Information Pre-training (M3I Pré-entraînement). Notre méthode obtient des performances supérieures aux méthodes précédentes de pré-entraînement sur diverses benchmarks en vision, y compris la classification ImageNet, la détection d'objets COCO, la détection d'objets à queue longue LVIS et la segmentation sémantique ADE20k. Notamment, nous avons réussi à pré-entrainer un backbone d'image à milliard de paramètres et avons atteint des performances state-of-the-art sur diverses benchmarks. Le code sera publié sur https://github.com/OpenGVLab/M3I-Pretraining.