12 天前

DENet:一种用于音频监控应用的深度架构

{Mario Vento, Alessia Saggese, Antonio Roberto, Antonio Greco}
摘要

近年来,科学界与产业界对音频监控系统的设计表现出极大兴趣,这类系统能够对音频流进行分析并识别出感兴趣的事件。在安全应用领域尤为突出,音频分析可作为视频分析系统的替代方案,也可与之结合使用,发挥协同效应。在此背景下,本文提出一种新型的循环卷积神经网络架构——DENet。该架构基于一种新型网络层,称为去噪增强(Denoising-Enhancement, DE)层,该层通过在带通滤波信号的各分量上应用注意力图,实现对原始信号的去噪与增强。与现有先进方法不同,DENet直接以无损原始波形作为输入,通过将所提出的DE层与双向门控循环单元(bidirectional gated recurrent unit)相结合,能够自动学习感兴趣频率随时间的演化特征。此外,该方法利用连续帧(即属于同一事件的帧)分类结果所提供的反馈信息,显著降低了误分类率。我们在MIVIA音频事件(MIVIA Audio Events)和MIVIA道路事件(MIVIA Road Events)两个公开数据集上进行了实验,结果验证了所提方法在性能上优于其他现有先进方法。

DENet:一种用于音频监控应用的深度架构 | 最新论文 | HyperAI超神经