16 天前
利用弱预测进行强化增强的声音事件检测
Hyeonuk Nam, Byeong-Yun Ko, Gyeong-Tae Lee, Seong-Hu Kim, Won-Ho Jung, Sang-Min Choi, Yong-Hwa Park

摘要
声事件检测(Sound Event Detection, SED)系统的性能受到大规模强标签数据集难以生成的严重制约。在本研究中,我们采用两种主要方法来缓解强标签数据不足的问题。首先,我们在输入特征上应用了高强度的数据增强技术,所采用的方法不仅包括语音/音频领域常用的常规数据增强手段,还提出了我们新提出的名为FilterAugment的方法。其次,我们提出了两种利用弱预测结果以提升弱监督SED性能的新方法。实验结果表明,在DESED真实验证数据集上,我们取得了最佳的PSDS1得分0.4336和最佳的PSDS2得分0.8161。本工作已提交至DCASE 2021 Task4,并在该任务中位列第三名。代码已公开:https://github.com/frednam93/FilterAugSED。