2달 전

언어 모델에 음성 정보 융합하기: 자동 음성 인식을 위한 대형 언어 모델의 활용

Chen Chen; Ruizhe Li; Yuchen Hu; Sabato Marco Siniscalchi; Pin-Yu Chen; Ensiong Chng; Chao-Han Huck Yang
언어 모델에 음성 정보 융합하기: 자동 음성 인식을 위한 대형 언어 모델의 활용
초록

최근 연구에서는 대형 언어 모델(LLM)이 자동 음성 인식(ASR) 결과 위에서 생성적 오류 교정(GER)을 성공적으로 수행할 수 있음을 입증하였습니다. 구체적으로, LLM은 ASR 시스템이 생성한 N-베스트 가설 목록을 예측된 출력 전사로 직접 매핑하는 데 활용됩니다. 그러나, 그 효과에도 불구하고 GER은 LLM이 음성 신호에 포함된 음향 정보를 고려하지 않고 훈련되기 때문에 추가적인 데이터 불확실성을 도입합니다. 본 연구에서는 이러한 제한을 극복하기 위해 예측된 전사를 생성하기 전에 음향 정보를 융합하는 새로운 후기 융합 솔루션인 불확실성 인지 동적 융합(Uncertainty-Aware Dynamic Fusion, UADF) 방법을 제안합니다. UADF는 자기 회귀 해독 과정에 구현된 다중 모달 융합 접근법으로 두 단계로 작동합니다: (i) 먼저 토큰 수준의 LLM 결정을 분석하고 보정하며, (ii) 다음으로 음향 모달로부터의 정보를 동적으로 통합합니다. 다양한 ASR 작업에서 수집된 실험 증거는 UADF가 기존 융합 메커니즘을 여러 면에서 능가함을 보여줍니다. UADF는 단일 모달만으로 융합 시 발생하는 빈약한 일반화 문제를 해결하면서 LLM의 데이터 불확실성 문제를 완화시키고, 단어 오류율(WER)에서 유의미한 개선을 가져옵니다. 또한 우리는 UADF가 오디오-비주얼 음성 인식에 원활하게 적응함을 입증하였습니다.

언어 모델에 음성 정보 융합하기: 자동 음성 인식을 위한 대형 언어 모델의 활용 | 최신 연구 논문 | HyperAI초신경