11 天前

Oscar:面向视觉-语言任务的物体语义对齐预训练

Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao
Oscar:面向视觉-语言任务的物体语义对齐预训练
摘要

基于图像-文本对的大规模预训练方法在视觉-语言任务中日益流行。现有方法通常简单地将图像区域特征与文本特征拼接作为模型输入,并通过自注意力机制以“蛮力”方式学习图像与文本之间的语义对齐。本文提出一种新的预训练方法——Oscar(Object-Semantics Aligned Pre-training),该方法利用图像中检测到的物体标签作为锚点,显著降低对齐学习的难度。这一方法的提出基于一个观察:图像中的显著物体通常能够被准确检测到,且常在对应的文本中被提及。我们在包含650万对图文数据的公开语料库上预训练Oscar模型,并在下游任务中进行微调,成功在六个广受认可的视觉-语言理解与生成任务上刷新了当前最优性能(SOTA)。

Oscar:面向视觉-语言任务的物体语义对齐预训练 | 最新论文 | HyperAI超神经