
摘要
本文提出了一种新颖的音视频多模态桥梁框架,该框架能够有效利用音频与视觉信息,即使在仅有单模态输入的情况下亦可运行。我们设计了一种记忆网络,用于存储源模态(即视觉)和目标模态(即音频)的表示。其中,源模态表示为输入给定的信息,而目标模态表示则是我们希望从记忆网络中获取的结果。在此基础上,我们构建了一个关联桥梁,用于建模源模态与目标模态记忆之间的相互关系。通过该关联桥梁学习两者间的内在联系,所提出的桥梁框架能够在仅输入源模态信息的情况下,成功在记忆网络内部推导出目标模态表示,从而为下游任务提供丰富的上下文信息。我们将该框架应用于两个任务:唇读(lip reading)与无声视频中的语音重建(speech reconstruction from silent video)。借助所提出的关联桥梁与模态特异性记忆机制,各任务均能通过召回的音频上下文显著增强自身知识表达,取得了当前最优的性能表现。此外,实验验证了该关联桥梁能够准确建模源模态与目标模态记忆之间的对应关系。