
초록
본 논문에서는 연결주의 시계열 분류(CTC)에 영감을 받은 특수한 상태 구조를 채택한 조건부 확률장(CRF) 기반 단계별(SS) 음성 모델링 기법을 제안한다. 이를 약자로 CTC-CRF라고 한다.CTC-CRF는 개념적으로 간단하며, 하위 신경망이 생성한 특징 위에 특수한 상태 구조를 갖는 CRF 레이어를 적용하는 방식으로 구현된다. SS-LF-MMI(라티스 자유 최대 상호정보량)와 마찬가지로, CTC-CRF는 GMM-HMM 사전 학습 및 트리 구축 과정 없이도 처음부터(end-to-end) 학습이 가능하다.WSJ, Switchboard, Librispeech 데이터셋을 대상으로 평가 실험을 수행하였다. 두 모델 간 직접 비교 결과, 단순한 양방향 LSTM을 사용한 CTC-CRF 모델은 단일 음소(mono-phones) 및 단일 문자(mono-chars) 모두에서 세 가지 벤치마크 데이터셋에서 강력한 SS-LF-MMI 모델을 일관되게 상회하였다. 또한 CTC-CRF는 SS-LF-MMI에서 요구되는 일부 경험적 조작(heuristic operations)을 피할 수 있다.