17일 전
CAT: 하이브리드와 엔드투엔드 접근법을 통합하여 데이터 효율성과 낮은 지연을 달성하는 CTC-CRF 기반 ASR 툴킷
Keyu An, Hongyu Xiang, Zhijian Ou

초록
이 논문에서는 음성 인식을 위한 새로운 오픈소스 툴킷인 CAT(CTC-CRF 기반 ASR 툴킷)을 제안한다. CAT은 하이브리드 접근법의 데이터 효율성과 E2E(End-to-End) 접근법의 간결함을 동시에 겸비하며, CTC-CRF의 완전한 구현과 영어 및 중국어 기준 데이터셋에 대한 완전한 학습 및 테스트 스크립트를 제공한다. 실험 결과 CAT은 Kaldi에서 미세 조정된 하이브리드 모델 수준의 최신 성능을 달성하면서도 훨씬 간단한 학습 파이프라인을 갖추고 있음을 보였다. 기존의 비모듈화된 E2E 모델들과 비교했을 때, CAT은 제한된 규모의 데이터셋에서도 더 우수한 성능을 보여 주어 데이터 효율성의 우수성을 입증했다. 더불어, 정확도 저하 없이 스트리밍 ASR을 수행할 수 있도록 해주는 새로운 방법인 '컨텍스트 기반 소프트 포기( contextualized soft forgetting)'를 제안하였다. 우리는 CAT, 특히 CTC-CRF 기반의 프레임워크와 소프트웨어가 연구 공동체에 넓은 관심을 끌기를 기대하며, 향후 추가적인 탐구와 개선이 이루어지기를 바란다.