17일 전
워드피스를 활용한 더 빠르고 간단하며 정확도가 높은 하이브리드 ASR 시스템
Frank Zhang, Yongqiang Wang, Xiaohui Zhang, Chunxi Liu, Yatharth Saraf, Geoffrey Zweig

초록
본 연구에서는 널리 사용되는 LibriSpeech 벤치마크에서, 기반 모델이 트랜스포머 기반의 문맥 의존적 연결주의 시계열 분류(CTC) 시스템을 사용할 경우 최신 기술 수준의 성능을 달성함을 처음으로 보여준다. 또한, 단어 조각(wordpieces)을 모델링 단위로 사용하고 CTC 학습을 적용할 경우, 기존의 프레임 기반 교차 엔트로피 학습에 비해 GMM 부트스트랩, 의사결정 트리 구축, 강제 정렬(forced alignment) 등의 모든 전처리 단계를 제거함으로써 공학적 파이프라인을 크게 단순화할 수 있음을 확인하였다. 그럼에도 불구하고 매우 경쟁력 있는 단어 오류율(word-error-rate)을 달성할 수 있다. 더불어 단어 조각을 모델링 단위로 사용하면, 정확도를 유지하면서도 더 큰 스트라이드(stride)를 사용할 수 있어 실행 시간 효율성이 크게 향상됨을 확인하였다. 이러한 결과는 내부 VideoASR 데이터셋 두 개—유사한 합성어 언어인 독일어와 접착어 언어인 터키어—에서도 확인되었으며, 본 연구의 발견이 다양한 언어 유형에 대해 일반화됨을 입증한다.