17일 전
FunASR: 기초 엔드투엔드 음성 인식 툴킷
Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Zhangyu Xiao, Shiliang Zhang

초록
이 논문은 학계 연구와 산업 응용 간의 격차를 해소하기 위해 설계된 오픈소스 음성 인식 툴킷인 FunASR를 소개한다. FunASR는 대규모 산업용 코퍼스로 훈련된 모델을 제공하며, 이러한 모델을 실제 애플리케이션에 배포할 수 있는 기능을 갖추고 있다. 이 툴킷의 주요 모델인 Paraformer는 6만 시간에 달하는 수작업으로 태깅된 중국어 음성 인식 데이터셋을 기반으로 훈련된 비자율(end-to-end) 음성 인식 모델이다. Paraformer의 성능을 향상시키기 위해, 기존 Paraformer 백본에 타임스탬프 예측 및 핫워드 맞춤화 기능을 추가하였다. 또한 모델 배포를 용이하게 하기 위해, 산업용 코퍼스로 훈련된 피드포워드 순차 메모리 네트워크(Feedforward Sequential Memory Network, FSMN-VAD) 기반의 음성 활동 탐지(Voice Activity Detection, VAD) 모델과, 조절 가능한 시간 지연 트랜스포머(Controllable Time-delay Transformer, CT-Transformer) 기반의 텍스트 후처리 구두점 부여 모델을 모두 오픈소스로 공개하였다. 이러한 기능 모듈들은 고정밀 장시간 음성 인식 서비스 구축을 위한 견고한 기반을 제공한다. 오픈 데이터셋으로 훈련된 다른 모델들과 비교했을 때, Paraformer는 뛰어난 성능을 보였다.