9일 전
DCASE2021 챌린지 과제 6을 위한 상하이교통대학 시스템: 인코더 사전학습과 강화학습 기반 오디오 캡셔닝
{Kai Yu, Mengyue Wu, Zeyu Xie, Xuenan Xu}

초록
이 보고서는 DCASE 2021 챌린지 과제 6인 음향 장면 및 사건 탐지 및 분류(Detection and Classification of Acoustic Scenes and Events, DCASE)를 위한 오디오 캡셔닝 시스템을 제안한다. 본 오디오 캡셔닝 시스템은 10층의 합성곱 신경망(Convolutional Neural Network, CNN) 인코더와 시계열 주의 메커니즘을 갖춘 단일층 게이트형 순환 신경망(Gated Recurrent Unit, GRU) 디코더로 구성된다. 이 챌린지에서는 외부 데이터 및 사전 학습 모델의 사용에 대한 제한이 없다. 오디오 클립 내의 개념을 더 잘 모델링하기 위해, 우리는 AudioSet에서 오디오 태깅(audio tagging)을 기반으로 CNN 인코더를 사전 학습하였다. 표준 교차 엔트로피 기반 학습을 거친 후, 평가 지표를 직접 최적화하기 위해 강화 학습을 활용하여 모델을 추가로 미세 조정하였다. 실험 결과, 앙상블을 사용하지 않고도 공개 평가 분할에서 SPIDEr 지표 28.6을 달성하였다.