15 天前

IIANet:一种用于音视频语音分离的模内与模间注意力网络

Kai Li, Runxuan Yang, Fuchun Sun, Xiaolin Hu
IIANet:一种用于音视频语音分离的模内与模间注意力网络
摘要

近期研究在音频-视觉语音分离任务的融合模块设计方面取得了显著进展。然而,现有方法大多仅在单一时间尺度上对听觉与视觉特征进行多模态融合,且未引入选择性注意力机制,这与人类大脑的处理方式存在显著差异。为解决这一问题,本文提出一种新型模型——跨模态与模态内注意力网络(Intra- and Inter-Attention Network, IIANet),该模型利用注意力机制实现高效的音频-视觉特征融合。IIANet包含两种注意力模块:模态内注意力块(IntraA)与跨模态注意力块(InterA),其中InterA块被分别部署在网络的顶层、中层和底层。该设计深受人类大脑在不同时间尺度上选择性关注相关信息机制的启发,使得模型既能有效学习各模态特有的特征表示,又能从音频-视觉特征中提取多层次、差异化的语义信息。在三个标准音频-视觉分离基准数据集(LRS2、LRS3 和 VoxCeleb2)上的大量实验结果表明,IIANet显著优于此前的最先进方法,在保持相近推理时间的前提下,实现了更优的语音分离性能。尤其值得注意的是,IIANet的快速版本(IIANet-fast)仅需CTCNet约7%的乘加操作量(MACs),在CPU上运行速度比CTCNet快40%,同时取得了更优的分离质量。这一结果充分展现了注意力机制在实现高效、有效多模态融合方面的巨大潜力。