2달 전

영어 대화형 음성 인식의 한계에 대해

Zoltán Tüske; George Saon; Brian Kingsbury
영어 대화형 음성 인식의 한계에 대해
초록

우리의 이전 연구에서는 단일 헤드 어텐션 인코더-디코더 모델이 대화형 음성 인식에서 최신 수준의 결과를 달성할 수 있음을 입증하였습니다. 본 논문에서는 Switchboard 300과 2000에 대한 결과를 더욱 개선하였습니다. 개선된 옵티마이저, 화자 벡터 임베딩, 그리고 대체적인 음성 표현을 사용하여 Switchboard-300에서 LSTM 시스템의 인식 오류를 상대적으로 4% 감소시켰습니다. 디코더 모델에 확률 비율 접근법을 적용함으로써 외부 언어 모델을 보다 효율적으로 통합할 수 있었으며, 매우 간단한 LSTM 모델로 Hub5'00의 SWB 및 CHM 부분에서 각각 5.9%와 11.5%의 WER(Word Error Rate)를 보고합니다. 또한 본 연구에서는 최근 제안된 컨포머(conformer)와 더 고급 자기 주의(self-attention) 기반 언어 모델들을 고려하였습니다. 전반적으로 컨포머는 LSTM과 유사한 성능을 보였지만, 이들의 조합과 개선된 LM(Language Model)으로 디코딩하면 Switchboard-300에서 새로운 기록인 SWB와 CHM에서 각각 5.0%와 10.0%의 WER를 달성하였습니다. 이러한 결과는 Switchboard-2000에서도 확인되었으며, 새로운 최신 수준을 보고하며 사실상 벤치마크의 한계에 도달하였습니다.

영어 대화형 음성 인식의 한계에 대해 | 최신 연구 논문 | HyperAI초신경