HyperAI
Command Palette
Search for a command to run...
实时目标声音提取
实时目标声音提取
Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota
摘要
我们提出了首个实现实时和流式目标声音提取的神经网络模型。为此,我们设计了Waveformer,这是一种编码器-解码器架构,其中编码器由多层扩张因果卷积层组成,解码器则采用 Transformer 解码层。这种混合架构利用扩张因果卷积以计算高效的方式处理较大的感受野,同时发挥基于 Transformer 架构的泛化性能优势。我们的评估结果显示,与先前用于此任务的模型相比,该模型在SI-SNRi指标上提高了2.2-3.3分贝,同时模型大小减少了1.2-4倍,运行时间降低了1.5-2倍。我们提供了代码、数据集和音频样本:https://waveformer.cs.washington.edu/。