9 天前
开放词汇视频问答:一种评估视频问答模型泛化能力的新基准
Dohwan Ko, Ji Soo Lee, Miso Choi, Jaewon Chu, Jihwan Park, Hyunwoo J. Kim

摘要
视频问答(Video Question Answering, VideoQA)是一项具有挑战性的多模态推理任务。与仅需从多个选项中选择答案的多项选择式VideoQA不同,开放式VideoQA的目标是在不限定候选答案的情况下,直接生成自然语言形式的答案。然而,以往大多数VideoQA模型将开放式VideoQA任务建模为分类问题,即将视频-问题对归类到一个固定答案集合中,即“封闭词汇”(closed-vocabulary)设定,该集合通常仅包含高频出现的答案(例如前1000个常见答案)。这种设定导致模型对高频答案产生偏差,难以泛化到词汇表外(out-of-vocabulary)的罕见或未见答案。为此,我们提出一个新的基准测试——开放词汇视频问答(Open-vocabulary Video Question Answering, OVQA),旨在通过引入罕见及未见答案,全面评估VideoQA模型的泛化能力。为进一步提升模型对罕见和未见答案的预测性能,我们提出一种基于图神经网络(GNN)的软文字化器(soft verbalizer)机制,该机制通过聚合与目标答案语义相似的词汇信息,增强模型对低频和未知答案的推理能力。在评估方面,我们通过对现有封闭词汇开放式VideoQA模型进行改进,构建了新的基线方法,并通过引入对罕见与未见答案的关注,显著提升了模型性能。消融实验与定性分析表明,所提出的GNN-based软文字化器在罕见及未见答案上的表现尤为突出,显著提升了整体模型性能。我们期望OVQA基准能为评估VideoQA模型的泛化能力提供重要参考,并推动未来相关研究的发展。代码已开源,地址为:https://github.com/mlvlab/OVQA。