
사운드 이벤트 감지(Sound Event Detection, SED)는 음향 신호 내에서 특정 사운드와 그 시간적 위치를 인식하는 데 필수적입니다. 특히 컴퓨테이션 자원이 제한된 기기 내 애플리케이션에서는 이 문제가 더욱 어려워집니다. 이러한 문제를 해결하기 위해, 본 연구에서는 효율적인 SED 시스템 개발을 위한 새로운 프레임워크인 듀얼 지식 증류(Dual Knowledge Distillation)를 소개합니다.우리가 제안하는 듀얼 지식 증류는 시간 평균화 지식 증류(Temporal-Averaging Knowledge Distillation, TAKD)로 시작됩니다. TAKD는 학생 모델의 매개변수를 시간적으로 평균화하여 얻은 평균 학생 모델을 사용하여, 학생 모델이 사전 훈련된 교사 모델로부터 간접적으로 학습할 수 있도록 합니다. 이를 통해 안정적인 지식 증류가 보장됩니다. 이후, 우리는 문맥 학습을 강화하기 위해 학생 모델 내에 임베딩 증류 레이어를 통합하는 임베딩 강화 특성 증류(Embedding-Enhanced Feature Distillation, EEFD)를 도입합니다.DCASE 2023 Task 4A 공개 평가 데이터셋에서, 제안된 듀얼 지식 증류를 적용한 우리의 SED 시스템은 베이스라인 모델의 매개변수의 세분의 일만 가지고 있음에도 불구하고 PSDS1과 PSDS2 측면에서 우수한 성능을 보였습니다. 이는 컴팩트한 SED 시스템에 대한 제안된 듀얼 지식 증류의 중요성을 강조하며, 엣지 디바이스에 이상적이음을 입증합니다.