2달 전
오디오 캡셔닝 트랜스포머
Mei, Xinhao ; Liu, Xubo ; Huang, Qiushi ; Plumbley, Mark D. ; Wang, Wenwu

초록
오디오 캡셔닝은 오디오 클립의 자연어 설명을 자동으로 생성하는 것을 목표로 합니다. 대부분의 캡셔닝 모델은 인코더-디코더 구조를 따르며, 이 구조에서 디코더는 인코더가 추출한 오디오 특성에 기반하여 단어를 예측합니다. 컨볼루션 신경망(CNNs)과 순환 신경망(RNNs)이 종종 오디오 인코더로 사용됩니다. 그러나 CNNs는 오디오 신호의 시간 프레임 간 시계열 관계를 모델링하는 데 한계가 있으며, RNNs는 시간 프레임 간 장기 의존성을 모델링하는 데 한계가 있습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 완전한 트랜스포머 네트워크를 기반으로 하며, 전적으로 컨볼루션을 사용하지 않는 오디오 캡셔닝 트랜스포머(ACT)를 제안합니다. 제안된 방법은 오디오 신호 내의 전역 정보를 모델링하고 오디오 이벤트 간 시계열 관계를 포착하는 능력이 우수합니다. 우리는 가장 큰 공개 오디오 캡셔닝 데이터셋인 AudioCaps에서 우리의 모델을 평가하였습니다. 실험 결과, 우리의 모델은 다른 최신 접근법들과 비교해 경쟁력 있는 성능을 보였습니다.