2달 전
제로샷 오디오 캡셔닝: 오디오-언어 모델 가이던스 및 오디오 컨텍스트 키워드 활용
Salewski, Leonard ; Fauth, Stefan ; Koepke, A. Sophia ; Akata, Zeynep

초록
제로샷 오디오 캡셔닝은 이와 같은 작업에 대한 사전 훈련 없이 오디오 콘텐츠에 대해 설명적인 텍스트 캡셔닝을 자동으로 생성하는 것을 목표로 합니다. 음성 인식과는 달리, 제로샷 오디오 캡셔닝은 말하는 언어를 텍스트로 번역하는 것이 아니라 주변 소음이나 인간의 행동으로 발생한 소리를 주로 다룹니다. 제로샷 이미지 캡셔닝 방법에서 영감을 얻어, 우리는 이러한 일반적인 오디오 신호를 텍스트 캡션으로 요약할 수 있는 새로운 프레임워크인 ZerAuCap을 제안합니다. 특히, 우리 프레임워크는 사전 훈련된 대형 언어 모델(LLM)을 활용하여 텍스트를 생성하며, 이는 사전 훈련된 오디오-언어 모델의 안내를 받아 오디오 콘텐츠를 설명하는 캡션을 생성합니다. 또한, 우리는 오디오 컨텍스트 키워드를 사용하여 언어 모델이 소음과 관련성이 높은 텍스트를 생성하도록 유도합니다. 제안된 프레임워크는 AudioCaps 및 Clotho 데이터셋에서 제로샷 오디오 캡셔닝 분야에서 최고의 성능을 달성하였습니다. 우리의 코드는 https://github.com/ExplainableML/ZerAuCap에서 확인할 수 있습니다.