2 个月前

CoCa：对比式标题生成器是图像-文本基础模型

Jiahui Yu; Zirui Wang; Vijay Vasudevan; Legg Yeung; Mojtaba Seyedhosseini; Yonghui Wu

摘要

探索大规模预训练基础模型在计算机视觉领域的应用具有重要意义，因为这些模型可以快速迁移到许多下游任务中。本文介绍了对比式描述生成器（Contrastive Captioner, CoCa），这是一种极简设计，旨在通过联合使用对比损失和描述生成损失来预训练图像-文本编码器-解码器基础模型，从而整合了像CLIP这样的对比方法和像SimVLM这样的生成方法的能力。与标准的编码器-解码器变压器不同，CoCa 在解码器的前半部分省略了交叉注意力机制，以编码单模态文本表示；而在剩余的解码器层中则引入了交叉注意力机制，以便对图像编码器进行多模态图像-文本表示。我们不仅在单模态图像和文本嵌入之间应用了对比损失，还在多模态解码器输出上应用了描述生成损失，后者自回归地预测文本标记。通过共享相同的计算图，这两种训练目标能够高效地计算，并且几乎没有额外开销。CoCa 从头开始端到端地预训练，既使用网页规模的替代文本数据也使用注释图像数据，并将所有标签简单地视为文本，从而无缝统一自然语言监督下的表征学习。实证结果表明，CoCa 在广泛的下游任务中实现了最先进的性能，无论是零样本迁移还是最小的任务特定适应。具体而言，在ImageNet分类任务中，CoCa 获得了86.3%的零样本最高准确率；当使用冻结的编码器和学习到的分类头时，准确率提升至90.6%；而经过微调后的编码器则达到了新的最高水平——91.0%的最高准确率。此外，在其他多个任务上也表现出色：- 视觉识别（ImageNet、Kinetics-400/600/700、Moments-in-Time）- 跨模态检索（MSCOCO、Flickr30K、MSR-VTT）- 多模态理解（VQA、SNLI-VE、NLVR2）- 图像描述生成（MSCOCO、NoCaps）这些结果进一步证明了 CoCa 的强大泛化能力和灵活性。