HyperAIHyperAI

Command Palette

Search for a command to run...

实时目标声音提取

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

摘要

我们提出了首个实现实时和流式目标声音提取的神经网络模型。为此,我们设计了Waveformer,这是一种编码器-解码器架构,其中编码器由多层扩张因果卷积层组成,解码器则采用 Transformer 解码层。这种混合架构利用扩张因果卷积以计算高效的方式处理较大的感受野,同时发挥基于 Transformer 架构的泛化性能优势。我们的评估结果显示,与先前用于此任务的模型相比,该模型在SI-SNRi指标上提高了2.2-3.3分贝,同时模型大小减少了1.2-4倍,运行时间降低了1.5-2倍。我们提供了代码、数据集和音频样本:https://waveformer.cs.washington.edu/


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供