摘要

视觉-语言（VL）预训练近期受到了广泛关注。然而，大多数现有的端到端预训练方法要么仅针对图像-文本检索、视觉问答（VQA）和图像描述等测试图像高层次理解的任务，要么仅针对短语定位和目标检测等需要区域级理解的任务。我们提出了FIBER（基于骨干网络融合的 Transformer 模型 Fusion-In-the-Backbone-based transformER），这是一种新的VL模型架构，能够无缝处理这两类任务。FIBER不是在单模态骨干网络之后添加专门的融合 Transformer 层，而是通过在图像和文本骨干网络中插入交叉注意力机制，将多模态融合深入到模型内部，从而在内存和性能方面带来提升。此外，与以往仅在图像-文本数据上进行预训练或在带有框级注释的细粒度数据上进行预训练的工作不同，我们提出了一种两阶段预训练策略，能够高效利用这两类数据：(i) 基于图像-文本数据的粗粒度预训练；随后进行 (ii) 基于图像-文本-框数据的细粒度预训练。我们在广泛的VL任务上进行了全面实验，包括从VQA、图像描述和检索到短语定位、指代表达理解及目标检测。通过深度多模态融合结合两阶段预训练，FIBER在所有任务中均表现出优于强大基线模型的一致性能提升，且通常使用的数据量远少于其他方法。代码已发布在 https://github.com/microsoft/FIBER。

源 PDF 查看代码