15 天前
基于音频频谱图Transformer的Patch-Mix对比学习在呼吸音分类中的应用
Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun

摘要
呼吸音包含早期诊断致命肺部疾病的关键信息。自新冠疫情以来,基于电子听诊器的非接触式医疗保健日益受到关注。为此,前沿的深度学习模型已被开发用于肺部疾病诊断,但由于医疗数据的稀缺性,该任务仍面临挑战。本研究证明,基于大规模视觉与音频数据集预训练的模型可有效迁移到呼吸音分类任务中。此外,我们提出一种简单直观的Patch-Mix数据增强方法,该方法在不同样本间随机混合频谱图块,并与音频频谱变换器(Audio Spectrogram Transformer, AST)相结合。为进一步提升特征区分能力,我们还提出一种新颖且高效的Patch-Mix对比学习策略,用于在隐空间中区分混合后的表示。所提出的方法在ICBHI数据集上取得了当前最优的性能,相较于先前最佳结果提升了4.08%。