6 个月前

摘要

评估一个能够以人类语言进行对话并理解视觉内容的AI代理极具挑战性。生成类指标（如BLEU分数）更注重语法正确性而非语义准确性，因此通常采用判别式方法，即让代理对一组候选答案进行排序。平均倒数排名（Mean Reciprocal Rank, MRR）通过考虑单个人类标准答案的排名来评估模型性能。然而，这种方法带来了新的挑战：答案的模糊性与同义性问题，例如语义等价（如“yeah”与“yes”）。为应对这一问题，研究者采用归一化折损累计增益（Normalized Discounted Cumulative Gain, NDCG）指标，通过密集标注的方式捕捉所有正确答案的相关性。但NDCG指标倾向于偏好通常适用但不确定的回答，例如“我不知道”。因此，设计一个在MRR与NDCG两项指标上均表现优异的模型极具难度。理想情况下，AI代理应能给出类人的自然回答，并能够准确验证任何回答的正确性。为解决这一难题，本文提出一种两阶段非参数化排序方法，能够有效融合表现优异的MRR模型与NDCG模型。实验结果表明，该方法在保持接近当前最优MRR性能（70.41% vs. 71.24%）的同时，实现了当前最优的NDCG性能（72.16% vs. 75.35%）。此外，该方法在2020年视觉对话（Visual Dialog 2020）挑战赛中获得冠军。相关源代码已公开，地址为：https://github.com/idansc/mrr-ndcg。

源 PDF