2달 전

합성 캡션을 활용한 텍스트-오디오 모델의 개선

Kong, Zhifeng ; Lee, Sang-gil ; Ghosal, Deepanway ; Majumder, Navonil ; Mehrish, Ambuj ; Valle, Rafael ; Poria, Soujanya ; Catanzaro, Bryan
합성 캡션을 활용한 텍스트-오디오 모델의 개선
초록

고품질 훈련 데이터, 특히 캡션을 획득하는 것은 여전히 개방된 과제입니다. 이전 방법들은 \textit{텍스트 전용 언어 모델(text-only language models)}을 활용하여 캡션을 보강하고 개선하였지만, 이러한 방법들은 규모와 오디오 및 캡션 간의 일관성과 관련된 제한점이 있습니다. 본 연구에서는 \textit{오디오 언어 모델(audio language model)}을 사용하여 대규모로 정확하고 다양한 캡션을 생성하는 오디오 캡셔닝 파이프라인을 제안합니다. 우리는 이 파이프라인을 활용하여 AudioSet에 대한 합성 캡션 데이터셋인 \texttt{AF-AudioSet}를 생성하고, 이러한 합성 캡션으로 사전 훈련된 텍스트-오디오 모델의 효과를 평가하였습니다. AudioCaps와 MusicCaps에서 체계적인 평가를 통해, 우리의 파이프라인과 합성 캡션을 활용하면 오디오 생성 품질에 있어 상당한 개선이 이루어짐을 확인하였으며, 새로운 \textit{최신 기술(state-of-the-art)} 수준의 성능을 달성하였습니다.

합성 캡션을 활용한 텍스트-오디오 모델의 개선 | 최신 연구 논문 | HyperAI초신경