16 天前
AUCO ResNet:一种用于从咳嗽和呼吸声中进行新冠状病毒初步筛查的端到端网络
{Giuseppe Pirlo, Luigi Moretti, Donato Impedovo, Paolo Giglio, Vincenzo Dentamaro}
摘要
本研究提出了一种受生物启发的深度神经网络——听觉皮层ResNet(AUCO ResNet),该网络专为声音分类任务设计,尤其适用于通过咳嗽和呼吸音频信号识别新冠病毒感染。与现有方法不同,AUCO ResNet支持端到端训练,能够通过梯度下降法联合优化学习算法中的所有模块,包括梅尔滤波器设计、特征提取、特征选择、降维以及最终的预测过程。该网络集成了三种注意力机制:挤压与激励机制(Squeeze-and-Excitation)、卷积块注意力模块(Convolutional Block Attention Module),以及一种新颖的正弦可学习注意力机制。这些注意力机制能够有效融合网络不同层级激活图中的关键信息。AUCO ResNet以原始音频文件作为输入,并可在训练过程中对特征提取阶段进行微调。具体而言,网络在训练过程中会自适应地设计一种类梅尔滤波器,从而根据重要频率动态调整滤波器组。实验结果表明,AUCO ResNet在多个数据集上均取得了当前最先进的性能表现。首先,该模型在包含新冠感染者咳嗽与呼吸音频的多个数据集上进行了测试。这一选择基于咳嗽与呼吸信号具有语言无关性,因而支持跨数据集的泛化测试。实验结果表明,该方法可作为一种低成本、快速且远程的新冠初步筛查工具,具有良好的应用前景。此外,该网络还在著名的UrbanSound 8K数据集上进行了测试,仅使用原始音频输入,未采用任何数据预处理或数据增强技术,即达到了当前最优的分类准确率,进一步验证了其强大的泛化能力和特征学习能力。