11 天前

PSLA:通过预训练、采样、标签化与聚合提升音频标注

Yuan Gong, Yu-An Chung, James Glass
PSLA:通过预训练、采样、标签化与聚合提升音频标注
摘要

音频标记(Audio Tagging)是一个活跃的研究领域,具有广泛的应用前景。自AudioSet数据集发布以来,模型性能取得了显著进步,这主要得益于新型模型架构和注意力模块的不断发展。然而,我们发现,对于基于AudioSet构建音频标记模型而言,合适的训练技术同样至关重要,但这一方面尚未得到应有的关注。为填补这一空白,本文提出PSLA——一套系统化的训练技术集合,能够显著提升模型精度,包括ImageNet预训练、平衡采样、数据增强、标签增强、模型集成及其设计选择。通过结合这些技术训练EfficientNet模型,我们获得了一个单模型(参数量为1360万)和一个集成模型,其在AudioSet上的平均精度均值(mAP)分别达到0.444和0.474,显著优于此前最佳系统(0.439,参数量8100万)。此外,我们的模型在FSD50K数据集上也取得了新的最先进mAP成绩,达到0.567。

PSLA:通过预训练、采样、标签化与聚合提升音频标注 | 最新论文 | HyperAI超神经