검색-보강된 소수 샘플 인-컨텍스트 오디오 캡셔닝

Retrieval-augmented Few-shot In-context Audio Captioning은 소규모 샘플 학습 원리를 활용한 오디오 설명 생성 기술입니다. 추론 시에는 특정 데이터셋에 대한 대규모 학습이 필요 없이 훈련 데이터에서 몇 개의 관련 예시를 검색하여 정확하고 문맥에 적합한 텍스트 설명을 생성합니다. 이를 통해 효율적이고 유연한 오디오 콘텐츠 이해 및 라벨링을 실현할 수 있습니다.

AudioCaps

Audio Flamingo (4-shot)