11 天前
简单的 Token 级置信度提升有助于提高图像描述的准确性
Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach

摘要
判断字幕是否准确描述图像,是视觉-语言理解中的关键环节。然而,当前最先进的模型在细粒度细节的正确性判断上常出现误判,导致生成结果错误,例如在字幕中“幻觉”出不存在的物体,或在组合推理方面表现不佳。本文提出一种简单但出人意料有效的评估方法——词元级置信度(Token-Level Confidence, TLC),用于衡量字幕的准确性。具体而言,我们在图像字幕任务上微调一个视觉-语言模型,输入一张图像和待评估的字幕,随后对词语或词序序列的置信度进行代数聚合或学习式聚合,以估计图像与字幕之间的一致性。与基于预训练模型的序列级评分相比,采用代数置信度的TLC在SVO-Probes数据集上的动词理解任务中,准确率相对提升了10%;在Winoground数据集的组合推理任务中,图像得分和群体得分分别相对提升了37%和9%,超越了此前的最先进水平。当有可用训练数据时,采用学习型置信度估计器可进一步提升性能:在MS COCO字幕数据集上,物体幻觉率相比原始模型相对降低了30%,并达到了新的最先进水平。