2달 전

대규모 어휘 음성 인식을 위한 DNN 음향 모델 구축

Andrew L. Maas; Peng Qi; Ziang Xie; Awni Y. Hannun; Christopher T. Lengerich; Daniel Jurafsky; Andrew Y. Ng
대규모 어휘 음성 인식을 위한 DNN 음향 모델 구축
초록

깊은 신경망(Deep Neural Networks, DNNs)은 이제 거의 모든 최신 음성 인식 시스템의 핵심 구성 요소가 되었습니다. 신경망 음향 모델을 구축하는 데는 네트워크 아키텍처, 크기 및 훈련 손실 함수를 포함한 여러 설계 결정이 필요합니다. 본 논문에서는 DNN 음향 모델 설계의 어느 측면이 음성 인식 시스템 성능에 가장 중요한지를 실증적으로 조사합니다. 우리는 DNN 분류기의 성능과 최종 음성 인식기의 단어 오류율을 보고하며, 작업 성능 차이에 영향을 미치는 요인을 정량화하기 위해 여러 지표를 사용하여 DNN들을 비교합니다. 첫 번째 실험 세트에서는 약 300시간의 대화형 전화 음성을 포함하는 표준 Switchboard 벤치마크 코퍼스를 사용합니다. 우리는 표준 DNNs와 컨벌루션 네트워크를 비교하고, 음향 모델링을 위한 로컬리 연결된, 언타이드 신경망(Locally-Connected, Untied Neural Networks)을 처음으로 사용한 실험 결과를 제시합니다. 또한 Switchboard와 Fisher 코퍼스를 결합하여 2,100시간의 훈련 데이터로 시스템을 구축하였습니다. 이 더 큰 코퍼스는 일반적으로 음성 인식 시스템에서 사용되는 것보다 최대 10배 많은 매개변수를 가진 큰 DNN 모델의 성능을 더욱 철저히 검토할 수 있게 해줍니다. 우리의 결과는 상대적으로 간단한 DNN 아키텍처와 최적화 기법이 강력한 결과를 생성한다는 것을 시사합니다. 이러한 발견들은 이전 연구들과 함께 최대 우도 훈련(maximum likelihood training)으로 DNN 하이브리드 음성 인식 시스템을 구축하는 데 있어 일련의 베스트 프랙티스를 설정하는 데 도움을 줍니다. 또한 우리의 DNN 최적화 실험은 차별적인 손실 함수(discriminative loss functions)를 사용하여 음성 작업용 DNNs 및 일반적인 DNN 분류기를 훈련시키는 사례 연구로서 역할을 합니다.

대규모 어휘 음성 인식을 위한 DNN 음향 모델 구축 | 최신 연구 논문 | HyperAI초신경