17일 전

CTC 기반 음성 인식을 위한 단모달 집약

Ying Fang, Xiaofei Li
CTC 기반 음성 인식을 위한 단모달 집약
초록

이 논문은 비자율적 자동 음성 인식(non-autoregressive automatic speech recognition)에 초점을 맞추고 있다. 본 논문에서는 동일한 텍스트 토큰에 속하는 특징 프레임을 세그먼트하고 통합하기 위해 단모드 집계(uni-modal aggregation, UMA)를 제안한다. 이를 통해 텍스트 토큰에 대한 보다 나은 특징 표현을 학습할 수 있다. 프레임 단위의 특징과 가중치는 모두 인코더에서 도출되며, 이후 단모드 가중치를 적용한 특징 프레임들이 통합된 후 디코더를 통해 추가 처리된다. 학습 과정에서는 연결주의적 시간 분류(Connectionist temporal classification, CTC) 손실 함수를 적용한다. 기존의 일반적인 CTC 대비 제안하는 방법은 보다 우수한 특징 표현을 학습하고 시퀀스 길이를 단축시켜 인식 오류와 계산 복잡도를 모두 감소시킨다. 중국어 방언 세 가지 데이터셋에 대한 실험 결과, UMA는 자가조건부 CTC(self-conditioned CTC)와 같은 최신 비자율적 방법들과 비교하여 우수하거나 유사한 성능을 보였다. 더불어 제안된 프레임워크에 자가조건부 CTC를 통합함으로써 성능이 더욱 두드러지게 향상됨을 확인하였다.