18 天前

VIVO:用于新物体描述生成的视觉词汇预训练

Xiaowei Hu, Xi Yin, Kevin Lin, Lijuan Wang, Lei Zhang, Jianfeng Gao, Zicheng Liu
VIVO:用于新物体描述生成的视觉词汇预训练
摘要

在图像描述生成任务中,能够描述训练数据中未见过的新物体,是一项极具价值但极具挑战性的能力,这一能力正是“新物体图像描述挑战”(Novel Object Captioning Challenge, NoCaps)所评估的核心目标。在该挑战中,模型训练仅允许使用COCO Captions数据集,不得引入任何额外的图像-描述对训练数据。因此,传统的视觉-语言预训练(Vision-Language Pre-training, VLP)方法无法直接应用。本文提出了一种名为视觉词汇预训练(Visual Vocabulary Pretraining, VIVO)的新方法,该方法在缺乏图像描述标注的情况下实现预训练。通过打破传统VLP方法对成对图像-描述数据的依赖,VIVO能够利用大量图像-标签配对数据来学习视觉词汇。具体而言,VIVO通过预训练一个多层Transformer模型,使模型能够将图像级别的标签与对应的图像区域特征进行对齐。为应对图像标签无序性的特点,VIVO引入了一种基于匈牙利匹配(Hungarian matching)的损失函数,并结合掩码标签预测机制,实现有效的预训练。我们通过在预训练模型上进行微调,验证了VIVO方法在图像描述生成任务上的有效性。此外,我们还对模型所隐含的视觉-文本对齐能力进行了深入分析。实验结果表明,该模型不仅能够生成流畅且准确描述新物体的图像描述,还能有效定位这些新物体在图像中的空间位置。本研究提出的单一模型在NoCaps基准上取得了新的最先进性能,其CIDEr得分甚至超过了人类水平。

VIVO:用于新物体描述生成的视觉词汇预训练 | 最新论文 | HyperAI超神经