
摘要
当机器学习算法在有限设备采集的音频数据上进行训练时,往往难以有效泛化到使用其他频率响应特性不同的设备所录制的音频样本。本文提出了一种相对简单的方法来解决这一问题,并介绍了该方法的两种变体:第一种方法需要来自多个设备的对齐样本,第二种方法则减轻了这一限制。该方法适用于音频信号在时域和频域中的各种表示形式。此外,本文还分析了该方法与标准化(standardization)及倒谱均值减除(Cepstral Mean Subtraction, CMS)之间的关联。即使在仅有少量训练样本的情况下,该方法依然表现出良好的有效性。该方法是在“音频场景与事件检测与分类”(Detection and Classification of Acoustic Scenes and Events, DCASE)2019挑战赛中开发的,并在录音设备不匹配的测试场景中取得了75%的准确率,荣获第一名。实验的源代码已公开发布于网络。