17일 전
음성 인식을 위한 통합 스트리밍 및 비스트리밍 두 번째 단계 엔드투엔드 모델
Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu, Chao Yang, Liyong Guo, Yaguang Hu, Lei Xie, Xin Lei

초록
본 논문에서는 단일 모델 내에서 스트리밍 및 비스트리밍 엔드투엔드(E2E) 음성 인식을 통합하기 위한 새로운 이단계 접근법을 제안한다. 제안하는 모델은 하이브리드 CTC/attention 아키텍처를 채택하며, 인코더 내의 컨포머(Conformer) 레이어를 개선하였다. 또한 임의의 오른쪽 컨텍스트 길이를 허용하기 위해 동적 청크 기반 어텐션 전략을 제안하였다. 추론 시점에서 CTC 디코더는 스트리밍 방식으로 n-best 후보를 생성하며, 청크 크기만 조정함으로써 추론 지연(latency)을 쉽게 제어할 수 있다. 이후 CTC 후보들은 어텐션 디코더를 통해 재평가(rescore)되어 최종 결과를 도출한다. 이 효율적인 재평가 과정은 문장 수준의 지연을 거의 유발하지 않는다. 공개된 170시간 분량의 AISHELL-1 데이터셋에 대한 실험 결과, 제안한 방법은 스트리밍과 비스트리밍 모델을 간단하고 효율적으로 통합할 수 있음을 보였다. AISHELL-1 테스트 세트에서, 제안 모델은 표준 비스트리밍 트랜스포머 대비 비스트리밍 ASR에서 5.60%의 상대적 문자 오류률(CER) 감소를 달성하였다. 동일한 모델은 스트리밍 ASR 시스템에서 640ms의 지연을 유지하면서 5.42%의 CER를 기록하였다.