16 天前

JiTTER:用于自监督声音事件检测中事件重建的拼图时间Transformer

Hyeonuk Nam, Yong-Hwa Park
JiTTER:用于自监督声音事件检测中事件重建的拼图时间Transformer
摘要

声事件检测(Sound Event Detection, SED)近年来在自监督学习(Self-Supervised Learning, SSL)方法的推动下取得了显著进展,其中基于掩码音频变换器的声事件检测方法(Masked Audio Transformer for SED, MAT-SED)通过掩码块预测任务实现缺失音频片段的重建,有效捕捉了全局依赖关系。然而,该方法在重建过程中容易破坏瞬态声事件的时序结构,且缺乏对时间顺序的显式约束,因此在细粒度事件边界检测任务中表现受限。为解决上述问题,本文提出一种名为JiTTER(Jigsaw Temporal Transformer for Event Reconstruction)的新型自监督学习框架,旨在提升基于Transformer的SED模型在时间建模方面的性能。JiTTER引入了一种分层的时间打乱重建策略:在块级(block-level)与帧级(frame-level)两个粒度上对音频序列进行随机打乱,迫使模型学习恢复原始的时间顺序。该预训练目标促使模型同时掌握全局事件结构与细粒度瞬态特征,显著增强了对具有尖锐起始与终止特性的声事件的检测能力。此外,我们在块级打乱过程中引入噪声注入机制,提供一种温和的扰动方式,进一步正则化特征学习过程,提升模型的鲁棒性。在DESED数据集上的实验结果表明,JiTTER相较于MAT-SED在PSDS(Per-Segment Detection Score)指标上实现了5.89%的显著提升,充分验证了显式时间推理在自监督声事件检测中的有效性。本研究结果表明,相较于简单的掩码预测任务,结构化的时序重建任务更能作为声事件表征学习的有效预训练范式,为未来自监督声场景理解方法的发展提供了新思路。