17일 전

CR-CTC: 음성 인식 향상을 위한 CTC에 대한 일관성 정규화

Zengwei Yao, Wei Kang, Xiaoyu Yang, Fangjun Kuang, Liyong Guo, Han Zhu, Zengrui Jin, Zhaoqing Li, Long Lin, Daniel Povey
CR-CTC: 음성 인식 향상을 위한 CTC에 대한 일관성 정규화
초록

Connectionist Temporal Classification (CTC)는 자동 음성 인식(Automatic Speech Recognition, ASR) 분야에서 널리 사용되는 방법으로, 간단한 구조와 뛰어난 계산 효율성으로 유명하다. 그러나 일반적으로 인식 성능 측면에서 한계를 보인다. 본 연구에서는 입력 음성의 멜스펙트로그램에 대해 다양한 증강된 시각(view)을 얻어 각각의 CTC 분포를 생성하고, 이 두 분포 간의 일관성을 강제하는 일관성 정규화 CTC(Consistency-Regularized CTC, CR-CTC)를 제안한다. 본 연구는 CR-CTC의 핵심 동작 특성을 세 가지 관점에서 심층적으로 분석한다. 첫째, 서로 다른 증강된 시각을 처리하는 임의의 하위 모델 쌍 간에 자기-디스틸레이션(self-distillation)을 수행한다. 둘째, 시간 마스킹(time-masked) 영역 내의 위치에 대해 마스킹된 예측을 통해 맥락적 표현(contextual representation)을 학습하며, 특히 시간 마스킹 비율을 높일수록 이 효과가 두드러진다. 셋째, 극도로 뾰족한(peaky) CTC 분포를 억제함으로써 과적합을 줄이고 일반화 능력을 향상시킨다. LibriSpeech, Aishell-1, GigaSpeech 등의 다양한 데이터셋에서 실시한 광범위한 실험을 통해 CR-CTC의 효과성을 입증하였다. 제안한 방법은 CTC 기반 모델의 성능을 크게 향상시켜, 트랜스듀서(transducer) 또는 CTC와 주의 기반 인코더-디코더(CTC/AED)를 결합한 시스템과 경쟁 가능한 최신 기술 수준의 성능을 달성하였다. 코드는 https://github.com/k2-fsa/icefall 에 공개하였다.

CR-CTC: 음성 인식 향상을 위한 CTC에 대한 일관성 정규화 | 최신 연구 논문 | HyperAI초신경