2달 전

.ZERO-SHOT AUDIO CAPTIONING VIA AUDIBILITY GUIDANCE.

Shaharabany, Tal ; Shaulov, Ariel ; Wolf, Lior
.ZERO-SHOT AUDIO CAPTIONING VIA AUDIBILITY GUIDANCE.
초록

오디오 캡셔닝의 과제는 이미지와 비디오 캡셔닝과 본질적으로 유사합니다. 그러나 이는 상대적으로 적은 주목을 받았습니다. 본 연구에서는 오디오 캡셔닝을 위한 세 가지 요구사항을 제안합니다: (i) 생성된 텍스트의 유창성, (ii) 입력 오디오에 대한 생성된 텍스트의 충실성, 그리고 다소 관련이 있는 (iii) 청각성, 즉 오디오만으로 인식할 수 있는 품질입니다. 우리의 방법은 제로샷(zero-shot) 방법으로, 캡셔닝 수행을 학습하지 않습니다. 대신, 세 가지 원하는 품질에 해당하는 세 개의 네트워크를 포함하는 추론 과정에서 캡셔닝이 이루어집니다: (i) GPT-2를 사용한 대형 언어 모델(Large Language Model), (ii) 오디오 파일과 텍스트 간의 일치 점수를 제공하는 모델로서 ImageBind라는 멀티모달 매칭 네트워크를 사용하고, (iii) 청각적 및 비청각적 문장 생성을 지시하기 위해 GPT-4에게 설계된 프롬프트를 통해 자동으로 수집한 데이터셋을 사용하여 훈련된 텍스트 분류기입니다. 우리는 AudioCap 데이터셋에서의 결과를 제시하며, 청각성 가이던스가 기준선(baseline)보다 성능을 크게 향상시키는 것을 보여줍니다. 기준선은 이 목표가 부족한 상태입니다.

.ZERO-SHOT AUDIO CAPTIONING VIA AUDIBILITY GUIDANCE. | 최신 연구 논문 | HyperAI초신경