17일 전
대규모 문장집에 대한 CTC-세그멘테이션을 통한 독일어 엔드투엔드 음성 인식
Ludwig Kürzinger, Dominik Winkelbauer, Lujun Li, Tobias Watzel, Gerhard Rigoll

초록
최근의 엔드투엔드 자동 음성 인식(ASR) 시스템은 기존의 하이브리드 DNN/HMM 기반 ASR 시스템을 능가하는 성능을 보여주었다. 이러한 시스템의 성능 향상은 아키텍처적 개선 외에도 모델의 깊이, 파라미터 수 및 모델 용량의 증가에 기인한다. 그러나 이러한 모델들은 동등한 성능을 달성하기 위해 더 많은 학습 데이터를 요구한다.본 연구에서는 독일어 음성 인식을 위한 공개된 데이터셋, 특히 아직 레이블이 부여되지 않은 음성 데이터를 통합하여 1700시간 이상의 대규모 데이터셋을 구축하였다. 데이터 준비를 위해, 연결형 시계열 분류(CTC, Connectionist Temporal Classification)로 사전 학습된 ASR 모델을 활용하여 비세그멘테이션 또는 레이블이 없는 학습 데이터로부터 추가적인 학습 데이터를 자동으로 생성하는 이단계 접근법을 제안한다. CTC로 학습된 네트워크에서 얻은 레이블 확률을 기반으로 발화 단위를 추출하고, 이를 통해 세그먼트의 정렬을 결정한다. 이러한 학습 데이터를 기반으로 하이브리드 CTC/어텐션 기반 트랜스포머 모델을 학습하였으며, Tuda-DE 테스트 세트에서 12.8%의 WER(단어 오류율)을 달성하여 기존 하이브리드 DNN/HMM 기반 ASR 시스템의 14.4%라는 기준 성능을 초과하였다.