CHiME-6 저녁 파티 음성 인식을 위한 경쟁적인 엔드투엔드 음성 인식 방향

종합적 음성 인식(End-to-end ASR) 시스템은 기존의 하이브리드 접근법과 경쟁력을 갖추고 있음이 입증되었지만, 노이지 환경이나 자료가 부족한 조건에서는 정확도 저하가 발생하기 쉬운 문제가 있다. 본 논문에서는 이러한 어려운 상황에서도 일부 종합적 접근법이 하이브리드 기준 성능에 근접한 성능을 보임을 주장한다. 이를 입증하기 위해 일상적인 음성 환경에서의 노이지 조건을 대표하는 CHiME-6 챌린지 데이터를 사례로 활용한다. 우리는 CTC-Attention와 RNN-Transducer 아키텍처를 비교 분석하고, RNN과 Transformer 기반 아키텍처를 함께 평가한다. 또한 음성 특징 추출 방법과 음성 강화 기법 간의 성능 비교도 제공한다. 더불어 저자원 환경에서 언어 모델을 활용한 가설 재평가(Neural Network Language Models for Hypothesis Re-scoring)의 효과성도 평가한다. 본 연구에서 제안한 최적의 RNN-Transducer 기반 종합적 모델은 개선된 비트 검색(beam search) 기법과 함께 사용했을 때, LF-MMI TDNN-F 기반 CHiME-6 챌린지 기준 성능 대비 단지 3.8% 절대적 WER(단어 오류율)의 성능 저하만을 보였다. 또한 가이드드 소스 분리(Guided Source Separation) 기반의 훈련 데이터 증강 기법을 적용하면, 하이브리드 기준 시스템보다 2.7% 절대적 WER에서 우수하며, 기존에 알려진 최고의 종합적 시스템보다도 25.7% 절대적 WER에서 뛰어난 성능을 달성하였다.