17 天前

视觉-语言预训练在图像描述生成中的扩展

Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang
视觉-语言预训练在图像描述生成中的扩展
摘要

近年来,基于视觉-语言预训练(Vision-Language Pre-training, VLP)的图像描述生成任务取得了显著的性能提升。人们普遍认为,模型规模是推动这一进展的关键因素之一。然而,现有大多数研究仅聚焦于在约400万张图像上对中等规模的Transformer模型(如12层或24层)进行预训练。本文提出Lemon——一个大规模图像描述生成模型(LargE-scale iMage captiONer),并首次系统性地开展了针对图像描述任务中VLP模型缩放行为的实证研究。我们以当前最先进的VinVL模型作为基准模型,该模型由图像特征提取器和Transformer编码器组成。在模型规模方面,我们对Transformer进行了大规模的缩放,涵盖从1300万到6.75亿参数的多种配置;在数据规模方面,我们构建并使用了高达2亿对图像-文本数据,这些数据通过网页中图像的alt属性自动采集,命名为ALT200M。通过广泛的实验分析,我们系统地刻画了模型规模与预训练数据规模增加时,模型性能的变化趋势。此外,我们还对比了多种训练策略,尤其针对在大规模噪声数据上训练的有效性进行了深入探讨。实验结果表明,Lemon在多个主流图像描述基准测试中取得了新的最先进性能,涵盖COCO Caption、nocaps以及Conceptual Captions等。同时,我们还展示了Lemon在零样本(zero-shot)场景下能够生成包含长尾视觉概念的高质量描述,展现出强大的泛化能力。