6 个月前

音频和语音处理

Alexandros Stergiou Dima Damen

摘要

听觉认知的一个关键功能是随时间将特定声音与其对应语义建立关联。当人类需要区分细微的音频类别时，常常会重复播放具有判别性的声音片段，以提升其预测置信度。为此，我们提出一种端到端的基于注意力机制的架构，通过选择性重复机制，聚焦于音频序列中最具判别性的声音片段。该模型首先利用完整的音频序列，并基于槽位注意力（slot attention）机制，迭代地优化需重复播放的时间片段。在每次重播过程中，选定的片段以更小的跳长（hop length）进行重播，从而提取这些片段内部的高分辨率特征。实验结果表明，该方法在三个音频分类基准数据集——AudioSet、VGG-Sound 和 EPIC-KITCHENS-100 上均能持续达到当前最优性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Alexandros Stergiou Dima Damen

摘要

听觉认知的一个关键功能是随时间将特定声音与其对应语义建立关联。当人类需要区分细微的音频类别时，常常会重复播放具有判别性的声音片段，以提升其预测置信度。为此，我们提出一种端到端的基于注意力机制的架构，通过选择性重复机制，聚焦于音频序列中最具判别性的声音片段。该模型首先利用完整的音频序列，并基于槽位注意力（slot attention）机制，迭代地优化需重复播放的时间片段。在每次重播过程中，选定的片段以更小的跳长（hop length）进行重播，从而提取这些片段内部的高分辨率特征。实验结果表明，该方法在三个音频分类基准数据集——AudioSet、VGG-Sound 和 EPIC-KITCHENS-100 上均能持续达到当前最优性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供