9 天前

IntentQA:上下文感知的视频意图推理

{Lifeng Fan, Wenjuan Han, Ping Wei, Jiapeng Li}
IntentQA:上下文感知的视频意图推理
摘要

本文提出了一项新型任务——IntentQA,这是一种专注于视频意图推理的特殊视频问答(VideoQA)任务。随着人工智能在日常任务中日益强调超越简单识别的推理能力,该任务的重要性愈发凸显。为此,我们构建了一个大规模的VideoQA数据集以支持该任务的研究。我们进一步提出了一种上下文感知的视频意图推理模型(Context-aware Video Intent Reasoning, CaVIR),该模型包含三个核心组件:i)视频查询语言(Video Query Language, VQL),用于实现情境上下文的更优跨模态表示;ii)对比学习模块,用于挖掘和利用对比性上下文信息;iii)常识推理模块,用于融合常识性上下文知识。在该挑战性任务上的大量实验结果表明,模型各组件均具有显著有效性,所提出的完整模型在性能上显著优于多种基线方法,并展现出良好的泛化能力,可适用于新的VideoQA任务。相关数据集与代码已开源,地址为:https://github.com/JoseponLee/IntentQA.git

IntentQA:上下文感知的视频意图推理 | 最新论文 | HyperAI超神经