SLAM-AAC: LLM을 통한 재서술 증강 및 CLAP-Refine을 활용한 음성 캡셔닝 향상

자동 오디오 캡션(Automated Audio Captioning, AAC)은 입력 오디오 신호에 대해 자연스러운 텍스트 설명을 생성하는 것을 목표로 한다. 최근 오디오 사전 학습 모델과 대규모 언어 모델(Large Language Models, LLMs)의 발전으로 인해 오디오 이해 및 텍스트 추론 능력이 크게 향상되었으며, 이는 AAC의 성능 향상 가능성을 높였다. 본 논문에서는 LLM을 활용한 어휘 재구성 증강과 CLAP-Refine 기법을 통해 AAC 성능을 더욱 향상시키는 SLAM-AAC을 제안한다. 제안하는 방법은 자기지도 학습 기반의 EAT 모델을 이용해 세부적인 오디오 표현을 추출하고, 경량적인 선형 레이어를 통해 해당 표현을 텍스트 임베딩과 정렬한다. 캡션 생성을 위한 LLM은 LoRA 어댑터를 활용하여 효율적으로 미세조정된다. 기계 번역 분야의 백트랜슬레이션(back-translation) 기법을 영감으로 삼아, 사전 학습 단계에서 Clotho 데이터셋을 어휘 재구성 증강을 통해 확장한다. 이 전략은 오디오-텍스트 쌍의 부족한 데이터 문제를 완화하고, 소수의 오디오 클립으로부터 더 다양한 캡션을 생성하는 데 기여한다. 추론 단계에서는 음성 인식에서의 n-best 재점수화 전략과 유사하게, 즉시 적용 가능한(CLAP-Refine) 전략을 도입하여 다중 디코딩 출력을 최대한 활용한다. CLAP 모델을 활용해 오디오-텍스트 유사도를 계산함으로써, 여러 탐색 빔(beam)에 의해 생성된 텍스트 설명 중 입력 오디오와 가장 잘 일치하는 결과를 선택할 수 있다. 실험 결과, SLAM-AAC는 Clotho V2 및 AudioCaps 데이터셋에서 기존 주류 모델을 능가하는 최신 기준(SOTA) 성능을 달성하였다.