9 天前

用于视频问答的分层条件关系网络

Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran
用于视频问答的分层条件关系网络
摘要

视频问答(VideoQA)任务具有挑战性,因其需要建模动态视觉特征与远距离关联关系,并将这些信息与语言概念进行关联。为此,我们提出一种通用且可复用的神经单元——条件关系网络(Conditional Relation Network, CRN),作为构建复杂视频表示与推理结构的基本模块。CRN接收一组张量对象和一个条件特征作为输入,输出一组编码后的对象。通过简单地复制、重组与堆叠这些可复用单元,即可灵活构建适用于多种模态与上下文信息的模型结构。该设计支持高阶关系建模与多步推理能力。在视频问答任务中,所提出的架构为一个CRN层级结构,其不同分支代表子视频或片段,且均以同一问题作为上下文条件。在多个知名数据集上的实验评估取得了新的最先进(SoTA)性能,充分证明了构建通用推理单元在复杂领域(如视频问答)中的显著价值。