9일 전

NTT DCASE2020 챌린지 과제 6 시스템: 키워드 및 문장 길이 추정을 통한 자동 오디오 캡션 생성

Yuma Koizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

초록

이 기술 보고서는 DCASE 2020 챌린지, 과제 6: 자동 오디오 캡션(Automatic Audio Captioning)에 참여한 시스템에 대해 설명한다. 본 제출물은 자동 오디오 캡션에서 발생하는 두 가지 불확정성 문제—단어 선택의 불확정성과 문장 길이의 불확정성—을 해결하는 데 초점을 맞추고 있다. 다중 작업 학습(Multi-task Learning)을 통해 키워드와 문장 길이를 추정함으로써 주요 캡션 생성 문제와 보조적인 불확정성 문제를 동시에 해결하였다. 개발-테스트 데이터셋을 활용하여 제출물의 단순화된 모델을 검증한 결과, 본 모델은 SPIDEr 점수 20.7을 기록하였으며, 기준 시스템(Baseline System)의 점수인 5.4에 비해 뚜렷한 성능 향상을 보였다.