2달 전
MAT-SED: 마스크된 오디오 트랜스포머와 마스크 재구성 기반 사전 학습을 이용한 소리 이벤트 감지
Cai, Pengfei ; Song, Yan ; Li, Kang ; Song, Haoyu ; McLoughlin, Ian

초록
사운드 이벤트 감지(Sound Event Detection, SED) 방법 중 대형 사전 훈련된 Transformer 인코더 네트워크를 활용한 방식은 최근의 DCASE 도전 과제에서 유망한 성능을 보여주었습니다. 그러나 여전히 시간적 종속성을 모델링하기 위해 RNN 기반 컨텍스트 네트워크에 의존하고 있으며, 이는 주로 라벨이 부착된 데이터의 부족 때문입니다. 본 연구에서는 마스킹 재구성 기반 사전 훈련을 통해 순수한 Transformer 기반 SED 모델인 MAT-SED(Masked-reconstruction based Audio Transformer for Sound Event Detection)를 제안합니다. 구체적으로, 상대 위치 인코딩을 사용하는 Transformer가 먼저 컨텍스트 네트워크로 설계되어, 모든 사용 가능한 타겟 데이터에서 자기 지도 방식으로 마스킹 재구성 작업을 통해 사전 훈련됩니다. 인코더와 컨텍스트 네트워크는 반지도 방식으로 공동으로 미세 조정됩니다. 또한, 전역-국소 특징 융합 전략을 제안하여 위치 결정 능력을 강화하였습니다. MAT-SED는 DCASE2023 Task 4 평가에서 최신 성능을 넘어섰으며, 각각 0.587/0.896의 PSDS1/PSDS2 점수를 달성하였습니다.