4달 전

LVCSR을 위한 매우 깊은 다국어 합성신경망

Tom Sercu; Christian Puhrsch; Brian Kingsbury; Yann LeCun
LVCSR을 위한 매우 깊은 다국어 합성신경망
초록

컨벌루션 신경망(CNNs)은 현재 최신의 대용량 연속 음성 인식(LVCSR) 시스템에서 표준적인 구성 요소입니다. 그러나 LVCSR 분야의 CNN은 다른 영역에서 더 깊은 신경망이 우수한 성능을 제공함에 따라 최근의 발전을 따라잡지 못하고 있습니다. 본 논문에서는 LVCSR를 위한 CNN의 구조적 발전 몇 가지를 제안합니다. 첫째, 최대 14개의 가중치 계층을 가진 매우 깊은 컨벌루션 네트워크 구조를 소개합니다. 이 구조는 각 풀링 계층 전에 여러 개의 컨벌루션 계층이 있으며, 작은 3x3 커널을 사용하여 VGG Imagenet 2014 구조에서 영감을 받았습니다. 둘째, 여러 언어에 대한 독립된 계층을 가진 다국어 CNN을 소개합니다. 셋째, 계산 비용이 거의 증가하지 않는 상태에서 더 많은 맥락 정보를 활용하기 위한 다중 스케일 입력 특성을 도입합니다.우리는 이러한 개선 사항들을 먼저 저자원 음성 인식 태스크인 Babel 태스크에서 평가하였습니다. 6개 언어의 결합 데이터로 우리의 CNN을 학습시킨 결과, 기존 PLP DNN보다 절대적으로 5.77% WER(단어 오류율) 개선 효과를 얻었습니다. 그 다음으로, 매우 깊은 CNN들을 Hub5'00 벤치마크(262시간의 SWB-1 학습 데이터 사용)에서 평가하였으며, 크로스 엔트로피 학습 후 단어 오류율 11.8%를 달성하였습니다. 이는 지금까지 발표된 가장 좋은 CNN 결과보다 1.4% WER 개선(상대적으로 10.6%) 효과를 보였습니다.