2 个月前

面向一体化预训练:通过最大化多模态互信息实现

Su, Weijie ; Zhu, Xizhou ; Tao, Chenxin ; Lu, Lewei ; Li, Bin ; Huang, Gao ; Qiao, Yu ; Wang, Xiaogang ; Zhou, Jie ; Dai, Jifeng
面向一体化预训练:通过最大化多模态互信息实现
摘要

为了有效挖掘大规模模型的潜力,提出了多种由不同来源的海量数据支持的预训练策略,包括监督预训练、弱监督预训练和自监督预训练。研究已经证明,结合多种预训练策略和来自不同模态/来源的数据可以显著提升大规模模型的训练效果。然而,当前的工作采用了多阶段预训练系统,复杂的管道可能会增加预训练的不确定性和不稳定性。因此,将这些策略整合到单阶段的方式中变得非常必要。在本文中,我们首先提出了一种通用的多模态互信息公式作为统一的优化目标,并证明了所有现有的方法都是我们框架的特例。在此统一视角下,我们提出了一种名为最大化多模态互信息预训练(Maximizing Multi-modal Mutual Information Pre-training, M3I 预训练)的一体化单阶段预训练方法。我们的方法在多个视觉基准测试中表现出优于以往预训练方法的性能,包括 ImageNet 分类、COCO 目标检测、LVIS 长尾目标检测和 ADE20k 语义分割。特别值得一提的是,我们成功地对一个参数量达到十亿级别的图像主干网络进行了预训练,并在各种基准测试中取得了最先进的性能。代码将在 https://github.com/OpenGVLab/M3I-Pretraining 发布。