16일 전

JiTTER: 자가학습 음향 이벤트 탐지용 조각 시간 변환기 이벤트 재구성

Hyeonuk Nam, Yong-Hwa Park
JiTTER: 자가학습 음향 이벤트 탐지용 조각 시간 변환기 이벤트 재구성
초록

소리 이벤트 탐지(Sound Event Detection, SED)는 자기지도 학습(Self-Supervised Learning, SSL) 기법의 도입으로 큰 발전을 이루었으며, 특히 마스킹된 오디오 트랜스포머를 활용한 SED(MAT-SED)는 마스킹된 블록 예측을 통해 누락된 오디오 구간을 재구성하는 방식을 사용한다. 그러나 이러한 방법은 전반적인 글로벌 의존성은 효과적으로 포착할 수 있으나, 일시적인 소리 이벤트의 구조를 방해하며 시간 순서에 대한 명시적 제약이 부족하여, 세밀한 이벤트 경계 탐지에는 적합하지 않다. 이러한 한계를 극복하기 위해, 우리는 트랜스포머 기반 SED의 시계열 모델링을 향상시키기 위해 설계된 SSL 프레임워크인 JiTTER(Jigsaw Temporal Transformer for Event Reconstruction)를 제안한다. JiTTER는 계층적인 시계열 셔플 재구성 전략을 도입하여, 오디오 시퀀스를 블록 수준과 프레임 수준에서 무작위로 셔플하고, 모델이 올바른 시간 순서를 재구성하도록 유도한다. 이 사전 학습 목표는 모델이 전반적인 이벤트 구조뿐 아니라 일시적인 세부 정보까지 학습하도록 유도하여, 급작스러운 발생-종료 특성을 가진 이벤트 탐지 능력을 향상시킨다. 또한, 블록 셔플 과정 중에 노이즈를 주입함으로써 보다 미세한 왜곡 메커니즘을 도입하여 특징 학습의 정규화를 강화하고 모델의 강건성을 높였다. DESED 데이터셋에서의 실험 결과, JiTTER는 MAT-SED를 상회하며 PSDS(Per-Scene Detection Score)에서 5.89%의 개선을 보였으며, SSL 기반 SED에서 명시적인 시계열 추론의 효과를 입증하였다. 본 연구 결과는 단순한 마스킹 예측보다 구조화된 시계열 재구성 작업이 소리 이벤트 표현 학습을 위한 더 효과적인 사전 학습 프레임워크임을 시사한다.

JiTTER: 자가학습 음향 이벤트 탐지용 조각 시간 변환기 이벤트 재구성 | 최신 연구 논문 | HyperAI초신경