
초록
오디오 태깅은 활발한 연구 분야이며, 다양한 응용 분야를 가지고 있다. AudioSet이 공개된 이후 모델 성능 향상에 큰 진전이 있었으며, 이는 주로 새로운 모델 아키텍처와 어텐션 모듈의 개발에 기인한다. 그러나 우리는 AudioSet을 활용한 오디오 태깅 모델 구축에 있어 적절한 훈련 기법 역시 동등하게 중요한 역할을 한다는 점을 발견하였으나, 이에 대한 충분한 주목을 받지 못하고 있다. 이러한 격차를 메우기 위해 본 연구에서는 이미지넷 사전학습, 균형 잡힌 샘플링, 데이터 증강, 레이블 강화, 모델 앙상블 등과 그 설계 선택을 포함하는 훈련 기법의 집합인 PSLA를 제안한다. 이러한 기법들을 활용하여 EfficientNet을 훈련함으로써, 파라미터 수가 1360만 개인 단일 모델과 앙상블 모델이 AudioSet에서 각각 평균 정밀도(mAP) 0.444 및 0.474의 성능을 달성하였으며, 기존 최고 성능 시스템(8100만 파라미터, mAP 0.439)을 초월하였다. 또한 본 모델은 FSD50K에서 새로운 최고 성능인 mAP 0.567을 기록하였다.