19일 전

EnCLAP: 자동 오디오 캡션을 위한 신경형 오디오 코덱과 오디오-텍스트 공동 임베딩의 결합

Jaeyeon Kim, Jaeyoon Jung, Jinjoo Lee, Sang Hoon Woo

초록

우리는 자동 음성 캡션 생성을 위한 새로운 프레임워크인 EnCLAP을 제안한다. EnCLAP는 EnCodec과 CLAP 두 가지 음성 표현 모델 및 사전 훈련된 언어 모델인 BART를 활용한다. 또한 사전 훈련된 언어 모델의 음성 인식 능력을 향상시키기 위해 마스크된 코덱 모델링(Masked Codec Modeling)이라는 새로운 훈련 목표를 도입한다. AudioCaps 및 Clotho 데이터셋에서의 실험 결과, 제안하는 모델이 기준 모델들을 능가하는 성능을 보였다. 소스 코드는 https://github.com/jaeyeonkim99/EnCLAP 에서 제공되며, 온라인 데모는 https://huggingface.co/spaces/enclap-team/enclap 에서 이용할 수 있다.