2달 전

SpecAugment: 자동 음성 인식을 위한 간단한 데이터 증강 방법

Daniel S. Park; William Chan; Yu Zhang; Chung-Cheng Chiu; Barret Zoph; Ekin D. Cubuk; Quoc V. Le
SpecAugment: 자동 음성 인식을 위한 간단한 데이터 증강 방법
초록

우리는 음성 인식을 위한 간단한 데이터 증강 방법인 SpecAugment를 제시합니다. SpecAugment는 신경망의 특징 입력(즉, 필터 뱅크 계수)에 직접 적용됩니다. 증강 정책은 특징 왜곡, 주파수 채널 블록 마스킹, 시간 단계 블록 마스킹으로 구성됩니다. 우리는 Listen, Attend and Spell 네트워크를 사용하여 엔드투엔드 음성 인식 작업에 SpecAugment를 적용하였습니다. 이로써 LibriSpeech 960시간 및 Swichboard 300시간 작업에서 최고 수준의 성능을 달성하였으며, 이전 모든 연구를 능가하였습니다. LibriSpeech에서 언어 모델을 사용하지 않은 경우 test-other 세트에서 6.8%의 WER(단어 오류율)을 기록하였으며, 언어 모델과의 얕은 융합을 통해 5.8%의 WER을 달성하였습니다. 이는 이전 최고 수준의 하이브리드 시스템이 기록한 7.5% WER보다 우수한 결과입니다. Switchboard의 경우, Hub5'00 테스트 세트의 Switchboard/CallHome 부분에서 언어 모델을 사용하지 않은 경우 7.2%/14.6%의 WER을 기록하였으며, 얕은 융합을 통해 6.8%/14.1%의 WER을 달성하였습니다. 이는 이전 최고 수준의 하이브리드 시스템이 기록한 8.3%/17.3% WER보다 우수한 결과입니다.