6 个月前

自然语言处理

自然语言处理

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

摘要

判断字幕是否准确描述图像，是视觉-语言理解中的关键环节。然而，当前最先进的模型在细粒度细节的正确性判断上常出现误判，导致生成结果错误，例如在字幕中“幻觉”出不存在的物体，或在组合推理方面表现不佳。本文提出一种简单但出人意料有效的评估方法——词元级置信度（Token-Level Confidence, TLC），用于衡量字幕的准确性。具体而言，我们在图像字幕任务上微调一个视觉-语言模型，输入一张图像和待评估的字幕，随后对词语或词序序列的置信度进行代数聚合或学习式聚合，以估计图像与字幕之间的一致性。与基于预训练模型的序列级评分相比，采用代数置信度的TLC在SVO-Probes数据集上的动词理解任务中，准确率相对提升了10%；在Winoground数据集的组合推理任务中，图像得分和群体得分分别相对提升了37%和9%，超越了此前的最先进水平。当有可用训练数据时，采用学习型置信度估计器可进一步提升性能：在MS COCO字幕数据集上，物体幻觉率相比原始模型相对降低了30%，并达到了新的最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

摘要

判断字幕是否准确描述图像，是视觉-语言理解中的关键环节。然而，当前最先进的模型在细粒度细节的正确性判断上常出现误判，导致生成结果错误，例如在字幕中“幻觉”出不存在的物体，或在组合推理方面表现不佳。本文提出一种简单但出人意料有效的评估方法——词元级置信度（Token-Level Confidence, TLC），用于衡量字幕的准确性。具体而言，我们在图像字幕任务上微调一个视觉-语言模型，输入一张图像和待评估的字幕，随后对词语或词序序列的置信度进行代数聚合或学习式聚合，以估计图像与字幕之间的一致性。与基于预训练模型的序列级评分相比，采用代数置信度的TLC在SVO-Probes数据集上的动词理解任务中，准确率相对提升了10%；在Winoground数据集的组合推理任务中，图像得分和群体得分分别相对提升了37%和9%，超越了此前的最先进水平。当有可用训练数据时，采用学习型置信度估计器可进一步提升性能：在MS COCO字幕数据集上，物体幻觉率相比原始模型相对降低了30%，并达到了新的最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

简单的 Token 级置信度提升有助于提高图像描述的准确性 | 论文 | HyperAI超神经