
摘要
在视觉描述生成任务中,已取得显著进展,其主要依赖于预训练特征以及后期固定的物体检测器,后者作为丰富输入提供给自回归模型。然而,此类方法的一个关键局限在于,模型的输出仅依赖于物体检测器的输出结果。该方法假设检测器输出能够涵盖所有必要信息,这一假设在实际中并不合理,尤其是在检测器跨数据集迁移时更为明显。本文针对这一假设所诱导的图模型结构进行分析,提出引入辅助输入以表征缺失的信息,例如物体之间的关系。具体而言,我们从 Visual Genome 数据集中挖掘物体属性与关系,并将其作为条件输入融入描述生成模型。尤为重要的是,我们提出(并实证其有效性)利用多模态预训练模型 CLIP 来检索此类上下文描述信息。此外,由于物体检测模型通常被冻结,其输出信息不足以支持描述模型实现充分的语义定位。为此,我们提出将检测器输出与描述信息均以图像为条件进行建模,实验结果在定性和定量层面均表明,该方法显著提升了模型的语义定位能力。我们在图像描述生成任务上验证了所提方法的有效性,对各组件的作用进行了全面分析,并深入探讨了多模态预训练模型的重要性。实验结果表明,该方法在当前主流基准上实现了显著提升,CIDEr 指标提升 7.5%,BLEU-4 指标提升 1.3%。