2달 전

적응형 계산 단계를 이용한 엔드투엔드 음성 인식

Mohan Li; Min Liu; Masanori Hattori
적응형 계산 단계를 이용한 엔드투엔드 음성 인식
초록

본 논문에서는 엔드투엔드 음성 인식 모델이 언어 출력을 예측하기 위해 처리해야 할 프레임 수를 동적으로 결정할 수 있도록 하는 적응적 계산 단계(Adaptive Computation Steps, ACS) 알고리즘을 제시합니다. ACS 알고리즘을 적용한 모델은 인코더-디코더 프레임워크를 따르지만, 주의 기반 모델과 달리 인접 프레임 간의 상관관계를 사용하여 인코더 측에서 독립적으로 정렬을 생성합니다. 따라서 충분한 음향 정보가 수신되는 즉시 예측이 가능해져, 이 모델은 온라인 환경에서도 적용할 수 있습니다. 또한, 인코더-디코더 프레임워크의 디코딩 단계에 작은 변경을 가함으로써 양방향 컨텍스트를 활용할 수 있게 되었습니다. 우리는 ACS 알고리즘을 만다린 음성 데이터셋 AIShell-1에서 검증하였으며, 온라인 환경에서 31.2%의 자음 오류율(Character Error Rate, CER)을 달성하였습니다. 이는 주의 기반 모델의 32.4% CER와 비교됩니다. ACS 알고리즘의 장점을 완전히 입증하기 위해 오프라인 실험도 수행하였는데, 이때 우리의 ACS 모델은 18.7%의 CER를 기록하여 주의 기반 모델(22.0% CER)보다 우수한 성능을 보였습니다.

적응형 계산 단계를 이용한 엔드투엔드 음성 인식 | 최신 연구 논문 | HyperAI초신경