9일 전
DCASE 2021 챌린지 태스크 6 시스템: 약한 감독(pre-training) 및 단어 선택 방법을 활용한 자동 오디오 캡셔닝
{Zhen Yang, Xiang Li, Dong Liu, Qichen Han∗, Weiqiang Yuan ∗}

초록
이 기술 보고서는 2021년 DCASE(Detection and Classification of Acoustic Scenes and Events) 챌린지의 Task 6, 즉 자동 오디오 캡셔닝(Automated Audio Captioning)에 참여한 시스템에 대해 설명한다. 본 연구에서는 오디오 이해 및 캡셔닝 생성을 위한 인코더-디코더 모델링 프레임워크를 사용한다. 제안하는 솔루션은 자동 오디오 캡셔닝에서 발생하는 두 가지 주요 문제, 즉 데이터 부족 문제와 단어 선택의 불확정성 문제를 해결하는 데 초점을 맞추고 있다. 금본 캡셔닝이 부여된 오디오 데이터가 제한되어 있는 상황에서, 히우리스틱 기법을 활용해 웹에서 대규모의 약한 라벨링 데이터셋을 수집하였다. 이후 이 데이터셋을 이용해 인코더-디코더 모델을 사전 학습한 후, Clotho 데이터셋을 이용하여 미세 조정(fine-tuning)을 수행하였다. 단어 선택의 불확정성 문제를 해결하기 위해, 유사한 오디오의 캡셔닝에서 추출한 키워드와 사전 학습된 모델이 생성한 오디오 이벤트 태그를 활용하여 디코딩 단계에서 단어 생성을 안내하였다. 제출한 모델은 개발-테스트 데이터셋을 기반으로 평가되었으며, 최고 성능을 기록한 제출 결과는 SPIDEr 점수 31.8을 달성하였으며, 기준 시스템(Baseline system)의 점수 5.4에 비해 상당한 성능 향상을 보였다.