17일 전
대규모 언어 모델과 작업 활성화 프롬프팅을 활용한 생성형 음성 인식 오류 보정
Chao-Han Huck Yang, Yile Gu, Yi-Chieh Liu, Shalini Ghosh, Ivan Bulyko, Andreas Stolcke

초록
대규모 언어 모델(Large Language Models, LLMs)이 음성 인식 후처리기로서 재평가(rescoring) 및 오류 보정 기능을 수행할 수 있는 능력을 탐구한다. 본 연구의 첫 번째 초점은 LLM이 미세조정(fine-tuning) 없이 이러한 작업을 수행할 수 있도록 지시(instruction) 프롬프팅을 활용하는 것이다. 이를 위해 제로-샷(zero-shot) 및 희소-샷(few-shot) 컨텍스트 학습을 포함한 다양한 프롬프팅 전략을 평가하였으며, 인과적 지시(causal instructions)와 예시(demonstration)를 결합하여 컨텍스트 창을 확장하는 새로운 작업 활성화 프롬프팅 방법을 제안한다. 다음으로, 고정된(frozen) LLM을 사용하여 컨텍스트 기반 학습만으로 재평가를 수행할 경우, 도메인 맞춤형 언어 모델(domain-tuned LMs)을 사용한 재평가와 경쟁 가능한 성능을 달성함을 보여준다. 이는 사전 훈련된 1차 인식 시스템을 기반으로 하며, 두 개의 도메인 외부 태스크(ATIS 및 WSJ)에서 재평가 출력을 수행한 결과이다. 마지막으로, 프롬프팅 기법과 미세조정을 결합함으로써 N-best 오라클 수준을 하회하는 오류율을 달성함으로써, LLM의 뛰어난 일반화 능력을 입증한다.