4달 전

문자 기반 음성 인식을 위한 게이트된 컨볼루션 신경망(Gated ConvNets)

Vitaliy Liptchinsky; Gabriel Synnaeve; Ronan Collobert
문자 기반 음성 인식을 위한 게이트된 컨볼루션 신경망(Gated ConvNets)
초록

최근의 문헌에서 "엔드투엔드(end-to-end)" 음성 시스템은 종종 순차-순차(sequence-to-sequence) 방식으로 훈련된 문자 기반 음성 모델을 의미합니다. 이는 재귀 모델을 통해 또는 구조화된 출력 학습 접근법(예: CTC)을 통해 이루어질 수 있습니다. 전통적인 음소(phone) 또는 세논(senone) 기반 접근법과 달리, 이러한 "엔드투엔드" 접근법은 단어 발음 모델링의 필요성을 줄이고, 훈련 시 강제 정렬("forced alignment") 단계를 요구하지 않습니다. 그러나, 전통적인 벤치마크에서는 여전히 음소 기반 접근법이 최고 수준의 성능을 보입니다.본 논문에서는 ConvNet 음성 모델을 활용한 문자 기반 음성 인식 시스템을 제안합니다. ConvNet의 핵심 구성 요소는 게이트 선형 유닛(Gated Linear Units)과 높은 드롭아웃(dropout) 비율입니다. ConvNet은 오디오 시퀀스를 해당하는 문자 전사에 매핑하도록 훈련되며, 이는 전통적인 CTC 방식을 통해 또는 최근 제안된 ASG 방식을 통해 이루어질 수 있습니다. 추론 시 간단한 디코더와 결합하여, 우리의 시스템은 WSJ 데이터셋에서 가장 우수한 기존 문자 기반 시스템들과 동등한 성능(단어 오류율 측면에서)을 보이며, LibriSpeech 데이터셋에서도 거의 최고 수준의 성능을 나타냅니다.