11 天前

视觉对话中的MRR与NDCG模型集成

Idan Schwartz
视觉对话中的MRR与NDCG模型集成
摘要

评估一个能够以人类语言进行对话并理解视觉内容的AI代理极具挑战性。生成类指标(如BLEU分数)更注重语法正确性而非语义准确性,因此通常采用判别式方法,即让代理对一组候选答案进行排序。平均倒数排名(Mean Reciprocal Rank, MRR)通过考虑单个人类标准答案的排名来评估模型性能。然而,这种方法带来了新的挑战:答案的模糊性与同义性问题,例如语义等价(如“yeah”与“yes”)。为应对这一问题,研究者采用归一化折损累计增益(Normalized Discounted Cumulative Gain, NDCG)指标,通过密集标注的方式捕捉所有正确答案的相关性。但NDCG指标倾向于偏好通常适用但不确定的回答,例如“我不知道”。因此,设计一个在MRR与NDCG两项指标上均表现优异的模型极具难度。理想情况下,AI代理应能给出类人的自然回答,并能够准确验证任何回答的正确性。为解决这一难题,本文提出一种两阶段非参数化排序方法,能够有效融合表现优异的MRR模型与NDCG模型。实验结果表明,该方法在保持接近当前最优MRR性能(70.41% vs. 71.24%)的同时,实现了当前最优的NDCG性能(72.16% vs. 75.35%)。此外,该方法在2020年视觉对话(Visual Dialog 2020)挑战赛中获得冠军。相关源代码已公开,地址为:https://github.com/idansc/mrr-ndcg。

视觉对话中的MRR与NDCG模型集成 | 最新论文 | HyperAI超神经