9일 전

최적화된 오디오 인코딩을 갖춘 대규모 언어 모델을 통한 자동 오디오 캡션 향상

Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang
최적화된 오디오 인코딩을 갖춘 대규모 언어 모델을 통한 자동 오디오 캡션 향상
초록

자동 음성 캡션화(Automated Audio Captioning, AAC)는 자연어로 음성 콘텐츠를 설명하는 음성-텍스트 변환 작업이다. 최근 대규모 언어 모델(Large Language Models, LLM)의 발전과 음성 인코더의 훈련 방법 개선으로 인해 AAC의 성능 향상이 가능해졌다. 따라서 본 연구에서는 다음과 같은 세 가지 측면에서 AAC의 성능을 향상시키는 방안을 탐색한다: 1) 일관성 있는 앙상블 다이스틸리션(Consistent Ensemble Distillation, CED)을 통해 사전 훈련된 음성 인코더를 활용하여 음성 토큰의 효율성을 향상시키고, 질의형 트랜스포머(Q-Former)를 도입하여 음성 토큰을 압축하면서 다모달 간 격차를 극복하고 LLM과 연결한다; 2) 7B 파라미터를 가진 Llama 2 모델을 디코더로 사용할 때의 장점을 탐구한다; 3) 추가로 사전 훈련된 LLM을 활용하여 부족한 훈련 데이터 및 애매한 레이블링으로 인한 텍스트 오류를 보정한다. 음성 인코더와 텍스트 디코더 모두 낮은 순위 적응(Low-Rank Adaptation, LoRA)을 통해 최적화된다. 실험 결과, 각각의 개선 방안이 효과적임을 확인할 수 있었다. 본 연구에서 제안하는 방법은 33.0 SPIDEr-FL 점수를 기록하며, DCASE 2023 Task 6A의 우승자보다 뛰어난 성능을 보였다.