18일 전

Whispering LLaMA: 음성 인식을 위한 다중 모달 생성형 오류 보정 프레임워크

Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner
Whispering LLaMA: 음성 인식을 위한 다중 모달 생성형 오류 보정 프레임워크
초록

우리는 자동 음성 인식(ASR)에서 생성형 오류 보정을 위한 새로운 크로스모달 융합 기법을 제안한다. 본 연구 방법론은 음성 정보와 외부 언어학적 표현을 활용하여 정확한 음성 전사 맥락을 생성하는 데 초점을 맞추고 있다. 이는 n-best 가설 내에서 생성형 오류 보정에 대한 새로운 패러다임으로의 전환을 의미한다. 기존의 순위 기반 재평가 방식과 달리, 본 방법은 서로 다른 초기화 기법과 파라미터 효율적인 알고리즘을 효과적으로 활용하여 사전 훈련된 음성 및 텍스트 모델로부터 얻은 ASR 성능을 향상시킨다. 다양한 ASR 데이터셋을 대상으로 한 평가를 통해 본 융합 기법의 안정성과 재현 가능성을 검증하였으며, n-best 가설 대비 상대적으로 37.66% 향상된 단어 오류율 상대적 개선도(WERR) 성능을 입증하였다. 향후 연구를 촉진하기 위해, 코드 및 사전 훈련 모델을 https://github.com/Srijith-rkr/Whispering-LLaMA 에 공개하였다.

Whispering LLaMA: 음성 인식을 위한 다중 모달 생성형 오류 보정 프레임워크 | 최신 연구 논문 | HyperAI초신경