2 个月前

解耦的框提议和特征化与超细粒度语义标签改善了图像描述和视觉问答

Soravit Changpinyo; Bo Pang; Piyush Sharma; Radu Soricut
解耦的框提议和特征化与超细粒度语义标签改善了图像描述和视觉问答
摘要

目标检测在当前解决视觉与语言任务(如图像描述和视觉问答)的方案中发挥着重要作用。然而,像Faster R-CNN这样的流行模型依赖于对边界框及其对应的语义标签进行耗时的真值标注过程,这使得它作为迁移学习的基本任务变得不太适用。本文中,我们研究了将边界框提议与特征化解耦对下游任务的影响。关键在于,这种解耦方法使我们能够利用大量之前无法用于标准目标检测基准测试的标注数据。通过实验验证,我们证明这种方法可以实现有效的迁移学习,并提高图像描述和视觉问答模型的性能,这一点已在公开可用的基准测试中得到证实。