17 天前
基于CLIP奖励的细粒度图像描述生成
Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung Bui, Mohit Bansal

摘要
当前的图像描述生成模型通常采用文本相似性目标进行训练。然而,由于公开数据集中参考描述往往聚焦于最显著的共性物体,基于文本相似性目标训练的模型容易忽略图像中能够区分其独特性的具体细节。为生成更具描述性与独特性的图像描述,本文提出利用CLIP——一种在大规模网络图像-文本对上训练的多模态编码器——来计算多模态相似性,并将其作为奖励函数。此外,我们提出一种简单的CLIP文本编码器微调策略,以提升生成描述的语法质量,该方法无需额外的文本标注数据。这一设计完全消除了在奖励计算过程中对参考描述的依赖。为全面评估描述性图像标题的质量,我们引入了FineCapEval,这是一个新的图像描述评估数据集,采用细粒度的评价标准,涵盖整体性、背景、物体以及对象间关系等多个维度。在文本到图像检索任务以及FineCapEval上的实验结果表明,所提出的CLIP引导模型生成的描述相较于以CIDEr优化的模型更具独特性。我们还验证了该无监督的CLIP文本编码器语法微调策略,有效缓解了原始CLIP奖励函数导致的生成质量退化问题。最后,通过人工评估分析,标注者在多个评价维度上均显著偏好CLIP奖励机制,优于CIDEr与最大似然估计(MLE)目标。代码与数据:https://github.com/j-min/CLIP-Caption-Reward