
摘要
基于视觉输入的视听融合方法为近年来语音分离技术的发展奠定了重要基础。然而,听觉与视觉信息在协同使用过程中的优化仍是一个活跃的研究方向。受皮层-丘脑-皮层环路(cortico-thalamo-cortical circuit)的启发——该环路中不同感觉模态的处理机制通过非丘系(non-lemniscal)感觉丘脑相互调节——我们提出了一种新型的皮层-丘脑-皮层神经网络(Cortico-Thalamo-Cortical Neural Network, CTCNet),用于视听语音分离(Audio-Visual Speech Separation, AVSS)。首先,CTCNet在独立的听觉与视觉子网络中,以自下而上的方式学习分层的听觉与视觉表征,模拟大脑听觉与视觉皮层的功能。随后,受皮层区域与丘脑之间广泛连接的启发,模型通过自上而下的连接,在丘脑子网络中融合听觉与视觉信息。最后,融合后的信息被反馈回听觉与视觉子网络,整个过程重复多次。在三个语音分离基准数据集上的实验结果表明,CTCNet显著优于现有AVSS方法,且参数量大幅减少。这些结果表明,模仿哺乳动物大脑的解剖连接组(anatomical connectome)结构,具有巨大潜力推动深度神经网络的发展。项目代码仓库地址:https://github.com/JusperLee/CTCNet。