HyperAIHyperAI

Command Palette

Search for a command to run...

简单的 Token 级置信度提升有助于提高图像描述的准确性

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

摘要

判断字幕是否准确描述图像,是视觉-语言理解中的关键环节。然而,当前最先进的模型在细粒度细节的正确性判断上常出现误判,导致生成结果错误,例如在字幕中“幻觉”出不存在的物体,或在组合推理方面表现不佳。本文提出一种简单但出人意料有效的评估方法——词元级置信度(Token-Level Confidence, TLC),用于衡量字幕的准确性。具体而言,我们在图像字幕任务上微调一个视觉-语言模型,输入一张图像和待评估的字幕,随后对词语或词序序列的置信度进行代数聚合或学习式聚合,以估计图像与字幕之间的一致性。与基于预训练模型的序列级评分相比,采用代数置信度的TLC在SVO-Probes数据集上的动词理解任务中,准确率相对提升了10%;在Winoground数据集的组合推理任务中,图像得分和群体得分分别相对提升了37%和9%,超越了此前的最先进水平。当有可用训练数据时,采用学习型置信度估计器可进一步提升性能:在MS COCO字幕数据集上,物体幻觉率相比原始模型相对降低了30%,并达到了新的最先进水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
简单的 Token 级置信度提升有助于提高图像描述的准确性 | 论文 | HyperAI超神经