17일 전

HyPoradise: 대규모 언어 모델을 활용한 생성형 음성 인식을 위한 오픈 베이스라인

Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Macro Siniscalchi, Pin-Yu Chen, Eng Siong Chng
HyPoradise: 대규모 언어 모델을 활용한 생성형 음성 인식을 위한 오픈 베이스라인
초록

딥 신경망의 발전으로 인해 자동 음성 인식(ASR) 시스템은 여러 공개된 정돈된 음성 데이터셋에서 인간 수준의 성능을 달성하게 되었다. 그러나 최첨단 ASR 시스템도 악조건에 직면했을 때 성능 저하를 겪는다. 완전히 학습된 음성 모델은 배경 잡음과 같은 음성 도메인 내 변화에 매우 민감하기 때문이다. 직관적으로 인간은 언어 지식을 활용해 이 문제를 해결한다. 모호한 말하기 표현의 의미는 일반적으로 맥락적 단서를 통해 추론되며, 청각 시스템에 대한 의존도가 감소한다. 이러한 관찰에 영감을 받아, 우리는 외부 대규모 언어 모델(LLM)을 활용한 ASR 오류 보정을 위한 최초의 오픈소스 벤치마크를 제안한다. 여기서 N-best 디코딩 후보들로부터 진정한 전사 결과 예측에 유용한 정보를 추출한다. 이 접근은 기존 언어 모델 재순위 매기기 전략과는 근본적으로 다른 패러다임 전환을 이룬다. 기존 전략은 출력 전사 결과로 단 하나의 후보를 선택할 수 있었지만, 본 연구에서는 다수의 후보를 활용한 보정이 가능하다. 제안된 벤치마크는 전반적인 음성 도메인에서 334,000개 이상의 N-best 후보와 해당 정확한 전사 쌍을 포함하는 새로운 데이터셋, HyPoradise(HP)를 포함하고 있다. 이 데이터셋을 기반으로, 레이블링된 후보-전사 쌍의 양이 다양한 LLM 기반 오류 보정 기법 세 가지를 평가하였으며, 이는 단어 오류율(WER)의 상당한 감소를 가져왔다. 실험 결과는 제안된 기법이 기존 재순위 매기기 기반 방법의 상한선을 초월하는 돌파구를 달성함을 입증한다. 더욱 놀라운 점은, 적절한 프롬프트와 생성 능력을 갖춘 LLM이 N-best 목록에 존재하지 않는 토큰까지도 보정할 수 있다는 것이다. 본 연구에서는 사전 학습된 모델과 함께 재현 가능한 파이프라인을 공개함으로써, LLM을 활용한 ASR 오류 보정에 대한 새로운 평가 패러다임을 제시한다.

HyPoradise: 대규모 언어 모델을 활용한 생성형 음성 인식을 위한 오픈 베이스라인 | 최신 연구 논문 | HyperAI초신경