2달 전

대화형 음성 인식에서 인간 수준의 정확도 달성

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig
대화형 음성 인식에서 인간 수준의 정확도 달성
초록

1990년대 스위치보드 코퍼스의 출시 이후 대화형 음성 인식은 주요 음성 인식 과제로 자리 잡았습니다. 본 논문에서는 널리 사용되는 NIST 2000 테스트 세트에서 인간의 오류율을 측정하고, 최신 자동 시스템이 인간 수준에 도달한 것을 확인하였습니다. 전문 트랜스크라이버의 스위치보드 데이터 부분에서의 오류율은 새로 만나는 사람들의 지정된 주제에 대한 토론에서 5.9%이며, 친구와 가족 간의 자유로운 대화를 포함하는 콜홈 부분에서는 11.3%입니다. 두 경우 모두 우리의 자동 시스템은 새로운 기술 수준을 달성하여 인간 기준을 초월하였으며, 각각 5.8%와 11.0%의 오류율을 기록하였습니다. 시스템 성능의 핵심은 다양한 컨벌루션 및 LSTM 음향 모델 구조를 사용하고, 새로운 공간 평활화 방법과 라티스 없는 MMI 음향 학습, 다중 순환 신경망 언어 모델링 접근법, 그리고 체계적인 시스템 결합을 통해 이루어졌습니다.

대화형 음성 인식에서 인간 수준의 정확도 달성 | 최신 연구 논문 | HyperAI초신경