2달 전
완전 컨벌루션 기반 음성 인식
Neil Zeghidour; Qiantong Xu; Vitaliy Liptchinsky; Nicolas Usunier; Gabriel Synnaeve; Ronan Collobert

초록
현재 최신의 음성 인식 시스템은 음향 모델링 및/또는 언어 모델링을 위해 순환 신경망을 기반으로 하며, 멜 필터 뱅크나 세프스트랄 계수를 추출하기 위한 특징 추출 파이프라인에 의존하고 있습니다. 본 논문에서는 원시 소리 파형에서의 최근 음향 모델과 언어 모델링의 발전을 활용한 전적으로 합성곱 신경망만을 사용하는 대안적 접근 방식을 제시합니다. 이 완전히 합성곱 기반의 접근 방식은 원시 소리 파형에서 문자를 예측하도록 단일로 학습되며, 특징 추출 단계를 완전히 제거합니다. 외부 합성곱 언어 모델이 단어 해독에 사용됩니다. 월스트리트 저널 데이터셋에서 우리의 모델은 현재 최신 성능과 일치합니다. 리브리스피치 데이터셋에서는 딥 스피치 2와 비교하여 12배 더 많은 음향 데이터와 상당히 더 많은 언어학적 데이터로 훈련된 모델들을 포함하여, 단일로 학습된 모델 중에서 최고 성능을 보여주었습니다.