
초록
기록된 사운드스케이프와 합성 사운드스케이프를 포함하는 이질적인 데이터셋을 활용하여 사운드 이벤트 탐지 알고리즘을 훈련시키는 것은 다양한 레이블링 세부 수준을 가질 수 있기 때문에 비약간의 작업이며, 이로 인해 여러 기술적 결정을 내려야 하는 시스템이 탄생할 수 있다. 이러한 기술적 선택들은 종종 비판 없이 한 시스템에서 다른 시스템으로 이어져 왔다. 본 연구에서는 DCASE 2020 Task 4 사운드 이벤트 탐지 베이스라인에 대해, 훈련에 사용된 데이터 유형, 메인티처(Mean-Teacher)의 파라미터, 합성 사운드스케이프 생성 시 적용된 변환 방법 등 여러 측면에서 철저한 분석을 제안한다. 특히 일반적으로 기본값으로 사용되는 일부 파라미터들이 최적의 성능을 내지 못함이 확인되었다.