17 天前
面向图像描述与视觉问答的统一视觉-语言预训练
Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao

摘要
本文提出了一种统一的视觉-语言预训练(Vision-Language Pre-training, VLP)模型。该模型的“统一性”体现在两个方面:(1)它能够通过微调适用于视觉-语言生成任务(如图像描述生成)或视觉-语言理解任务(如视觉问答);(2)其编码与解码过程共享同一个多层Transformer网络,这与许多现有方法中采用独立编码器和解码器模型的设计方式不同。该统一的VLP模型在大规模图像-文本对数据上进行预训练,采用两种无监督学习目标:双向和序列到序列(seq2seq)的掩码视觉-语言预测任务。这两种任务的区别仅在于预测所依赖的上下文信息类型,这一差异通过在共享的Transformer网络中使用特定的自注意力掩码来实现控制。据我们所知,VLP是首个在三个具有挑战性的基准数据集(COCO图像描述、Flickr30k图像描述和VQA 2.0)上同时取得视觉-语言生成与理解任务最先进性能的模型,涵盖从图像描述生成到视觉问答等差异较大的任务。相关代码与预训练模型已公开,获取地址为:https://github.com/LuoweiZhou/VLP。