
摘要
近年来,视听语音分离因其在语音识别、说话人分离、场景分析及辅助技术等领域的广泛应用前景而受到广泛关注。针对低延迟应用场景,设计轻量级的视听语音分离网络具有重要意义,然而现有方法通常需要较高的计算成本和更多参数才能实现优异的分离性能。本文提出一种名为自顶向下融合网络(Top-Down-Fusion Net, TDFNet)的视听语音分离模型,该模型为当前视听语音分离领域的最先进(SOTA)方法。TDFNet基于仅音频的语音分离方法TDANet的架构进行构建,其听觉与视觉分支均以TDANet为架构基础,从而实现参数更少、计算更高效的模型设计。在LRS2-2Mix数据集上,TDFNet相较于先前的SOTA方法CTCNet,在所有性能指标上均实现了最高达10%的提升。尤为突出的是,这一性能提升是在参数量更少、且仅需CTCNet约28%的乘加操作(MACs)的情况下达成的。本质上,本方法为视听语音分离任务提供了一种高效且极具成效的解决方案,显著推进了视觉信息在语音分离中的最优利用。