
초록
음성 데이터를 제한된 장치 집합에서 수집된 오디오 기록물로 학습시킨 머신러닝 알고리즘은 주파수 응답이 다른 다른 장치에서 기록된 샘플에는 일반화 성능이 낮을 수 있다. 본 연구에서는 이 문제를 해결하기 위해 비교적 간단한 방법을 제안한다. 제안된 방법은 두 가지 변형을 제시한다. 첫 번째 방법은 여러 장치에서 얻은 정렬된 예시(예: 동일한 음성 콘텐츠를 기록한 데이터)가 필요하지만, 두 번째 방법은 이러한 정렬 요구 조건을 완화한다. 이 방법은 오디오 기록물의 시간 영역 표현과 주파수 영역 표현 모두에 적용 가능하다. 또한, 표준화(standardization) 및 세프트랄 평균 제거(Cepstral Mean Subtraction, CMS)와의 관계도 분석한다. 제안된 접근법은 매우 적은 수의 예시가 제공되는 경우에도 효과적으로 작동한다. 본 방법은 2019년도 음향 장면 및 사건 탐지 및 분류(Detection and Classification of Acoustic Scenes and Events, DCASE 2019) 챌린지 과정에서 개발되었으며, 기록 장치의 불일치가 발생하는 시나리오에서 75%의 정확도로 1등을 차지했다. 실험을 위한 소스 코드는 온라인에서 공개되어 있다.