16일 전
주파수 동적 컨볼루션: 음향 이벤트 탐지 위한 주파수 적응형 패턴 인식
Hyeonuk Nam, Seong-Hu Kim, Byeong-Yun Ko, Yong-Hwa Park

초록
2D 컨볼루션은 음향 이벤트 탐지(Sound Event Detection, SED)에서 음향 이벤트의 2차원 시계열-주파수 패턴을 인식하는 데 널리 사용된다. 그러나 2D 컨볼루션은 시간축과 주파수축 모두에서 음향 이벤트에 대해 이동 등변성(translation equivariance)을 강제하는데, 주파수축은 이동 불변성(shift-invariance)을 갖지 않는 차원이다. SED에서 2D 컨볼루션의 물리적 일관성을 향상시키기 위해, 입력 신호의 주파수 성분에 따라 커널이 적응하는 주파수 동적 컨볼루션(Frequency Dynamic Convolution)을 제안한다. 주파수 동적 컨볼루션은 DESED 검증 데이터셋에서 다중 음성 탐지 점수(Polyphonic Sound Detection Score, PSDS) 기준으로 기준 모델보다 6.3% 향상시켰으며, SED 분야의 기존 콘텐츠 적응형 방법들보다도 유의미하게 우수한 성능을 보였다. 또한, 기준 모델과 주파수 동적 컨볼루션의 클래스별 F1 점수를 비교한 결과, 주파수-시간 패턴이 복잡한 비정상적 음향 이벤트 탐지에 대해 주파수 동적 컨볼루션이 특히 효과적임을 확인할 수 있었다. 이 결과를 통해 주파수 동적 컨볼루션이 주파수 의존적 패턴을 인식하는 데 있어 우수함을 검증하였다.