17일 전

음성 태그를 활용한 BART의 미세 조정을 통한 자동 오디오 캡셔닝

{Christophe Cerisara, Romain Serizel, F ́elix Gontier}
음성 태그를 활용한 BART의 미세 조정을 통한 자동 오디오 캡셔닝
초록

자동 오디오 캡셔닝은 자연스러운 언어로 환경 오디오 기록을 설명하는 다중모달 작업이다. 현재 대부분의 방법들은 오디오 입력에서 관련된 의미 정보를 추출하기 위해 사전 훈련된 분석 모델을 활용한다. 그러나 언어 모델링에 대한 사전 지식은 거의 도입되지 않고 있으며, 데이터 부족으로 인해 관련 아키텍처의 능력이 제한되어 있다. 본 논문에서는 일반 목적의 사전 훈련을 거친 대규모 조건부 언어 모델인 BART에 포함된 언어 정보를 활용하는 방법을 제안한다. 캡셔닝 생성은 텍스트 형식의 AudioSet 태그 시퀀스에 조건을 두고 수행되며, 시간적으로 정렬된 오디오 임베딩이 이 입력에 추가되어 사운드 이벤트 인식 성능을 향상시킨다. 전체 BART 아키텍처는 추가적인 파라미터 수를 최소화하면서 미세 조정된다. 실험 결과는 아키텍처의 확장성 외에도, 단일 언어 사전 훈련이 오디오 캡셔닝의 다중모달 환경에서 텍스트 품질을 향상시킨다는 점을 입증한다. 최적의 모델은 AudioCaps 데이터셋에서 46.5 SPIDEr 점수를 기록하며, 현재까지의 최고 성능을 달성하였다.