
摘要
开发基于视频的对话系统(Video-Grounded Dialogue Systems, VGDS),即根据给定视频的视觉和音频方面进行对话,比传统的基于图像或文本的对话系统更具挑战性,原因在于:(1) 视频的特征空间跨越多个画面帧,难以获取语义信息;(2) 对话代理必须感知并处理来自不同模态的信息(如音频、视频、字幕等),以获得全面的理解。现有的大多数研究工作主要基于循环神经网络(RNN)和序列到序列架构,这些方法在捕捉复杂长期依赖关系(如视频中的依赖关系)方面效果不佳。为了解决这一问题,我们提出了一种多模态变压器网络(Multimodal Transformer Networks, MTN)来对视频进行编码,并整合来自不同模态的信息。此外,我们通过自编码器提出了查询感知注意力机制,以从非文本模态中提取查询感知特征。我们还开发了一种训练程序,模拟逐词解码过程,以提高推理过程中生成响应的质量。我们在第七届对话系统技术挑战赛(Dialogue System Technology Challenge 7, DSTC7)上取得了最先进的性能。我们的模型还适用于另一项多模态视觉基础对话任务,并获得了令人鼓舞的结果。我们使用PyTorch实现了这些模型,并将代码发布在https://github.com/henryhungle/MTN。