
초록
고품질 자동 음성 인식(Automatic Speech Recognition, ASR)은 음성 기반 애플리케이션과 연구의 필수 요건입니다. 최신 ASR 소프트웨어는 무료로 제공되고 있지만, 영어를 제외한 다른 언어에 대한 언어 종속적인 음성 모델은 훈련 데이터의 제한된 양으로 인해 부족합니다. 우리는 크리에이티브 커먼즈 라이선스 하에 배포되는 두 개의 데이터셋을 사용하여 독일어에 대해 Kaldi로 음성 모델을 훈련시켰습니다. 이로 인해 생성된 모델은 무료로 재배포될 수 있어 독일어 ASR의 진입 장벽을 낮추었습니다. 총 412시간의 독일어 읽기 음성 데이터를 사용하여 모델을 훈련시키고, Spoken Wikipedia Corpus에서 데이터를 추가함으로써 이전에 가장 잘 알려진 무료 독일어 음성 모델 레시피와 데이터셋의 단어 오류율을 26% 상대적으로 감소시켰습니다. 우리의 최고 성능 모델은 Tuda-De 테스트 세트에서 14.38%의 단어 오류율을 달성했습니다. 훈련 데이터에 포함된 대화자의 큰 수와 다양한 주제 덕분에, 우리의 모델은 대화자 변동과 주제 전환에 강건합니다.