
초록
소음 이벤트 탐지(Sound Event Detection, SED)는 음향 환경 분석의 핵심 모듈로, 데이터 부족 문제에 시달리고 있다. 반감독 학습(semi-supervised learning, SSL)의 통합은 이러한 문제를 크게 완화하면서도 추가적인 레이블링 예산을 요구하지 않는다. 본 논문은 SSL의 핵심 모듈들을 연구하고, 무작위 일관성 학습(Random Consistency Training, RCT) 전략을 제안한다. 먼저, 티처-스터디언트 모델과 결합하여 학습 안정성을 높이기 위해 자기 일관성 손실(self-consistency loss)을 제안한다. 둘째, 소리의 가산성(additive property)을 반영하기 위해 하드 미크업(hard mixup) 데이터 증강 기법을 제안한다. 셋째, 다양한 종류의 데이터 증강 기법을 유연하게 조합할 수 있도록 무작위 증강 전략을 도입한다. 실험 결과, 제안하는 전략이 기존에 널리 사용되는 전략들보다 우수한 성능을 보였다.