HyperAI

음향 모델모델이 음성 파형을 생성할 확률을 계산하는 데 사용됩니다. 이는 음성 인식 시스템에서 가장 중요한 부분 중 하나이며 컴퓨팅 오버헤드의 대부분을 차지하여 음성 인식 시스템의 성능을 결정합니다.

기존 방법: GMM-HMM 모델링 방법과 같은 은닉 마르코프 음향 모델을 기반으로 합니다. GMM은 음성 음향 특징의 분포를 모델링하는 데 사용되고 HMM은 음성 신호의 시간적 특성을 모델링하는 데 사용됩니다.
딥 신경망: 음성 음향 모델에 사용됨. 힌튼과 그의 학생들은 2009년에 음성 인식을 위해 피드포워드 완전 연결 심층 신경망을 사용했는데, 이는 TIMIT 데이터 세트에서 DNN-HMM 기반 음향 모델보다 더 나은 성능을 보였습니다.
가변 길이의 맥락 정보 활용: 2015년에는 가변 길이의 음성 정보를 활용하는 음향 모델이 활용되었습니다. 음성 정보의 최적 길이는 음소와 말하는 속도에 영향을 받습니다. 고정 길이의 컨텍스트 창은 DNN-HMM 하이브리드 시스템에서 최선의 선택이 아닙니다. 최근 몇 년 동안의 새로운 모델은 주로 순환 신경망(RNN)과 합성곱 신경망(CNN)을 기반으로 합니다.

음향 모델링