16일 전

사전 학습된 ATST 모델을 사용하여 사운드 이벤트 탐지에 맞춤 학습(fine-tune)한다

Nian Shao, Xian Li, Xiaofei Li
사전 학습된 ATST 모델을 사용하여 사운드 이벤트 탐지에 맞춤 학습(fine-tune)한다
초록

사운드 이벤트 탐지(Sound Event Detection, SED)는 일반적으로 데이터 부족 문제에 직면한다. 최근 DCASE2023 챌린지 과제 4의 기준 시스템은 대규모 사전 훈련된 자기지도 학습(Self-supervised Learning, SelfSL) 모델을 활용하여 이러한 제약을 완화하고 있다. 이 사전 훈련된 모델들은 SED에 더 구분력 있는 특징을 생성하는 데 기여한다. 그러나 챌린지 기준 시스템과 대부분의 참가 제출물에서는 사전 훈련된 모델을 고정된 특징 추출기(frozen feature extractor)로 취급하며, 사전 훈련된 모델의 미세 조정(fine-tuning)에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 SED를 위한 사전 훈련된 모델의 미세 조정 방법을 탐구한다. 먼저, 본 연구에서 새로 제안한 SelfSL 모델인 ATST-Frame을 SED 시스템에 도입한다. ATST-Frame은 음성 신호의 프레임 단위 표현을 학습하기 위해 특별히 설계되었으며, 다양한 하류 작업에서 최신 기준(SOTA) 성능을 달성하였다. 이후, 도메인 내(인도메인) 레이블 없는 데이터와 레이블이 있는 SED 데이터를 모두 활용하여 ATST-Frame에 대한 미세 조정 방법을 제안한다. 실험 결과, 제안한 방법은 대규모 사전 훈련된 네트워크를 미세 조정할 때 발생하는 과적합 문제를 효과적으로 해결하며, DCASE 챌린지 과제 4 데이터셋에서 SED 시스템이 0.587/0.812의 PSDS1/PSDS2 점수로 새로운 SOTA 성능을 달성함을 확인하였다.

사전 학습된 ATST 모델을 사용하여 사운드 이벤트 탐지에 맞춤 학습(fine-tune)한다 | 최신 연구 논문 | HyperAI초신경