
초록
이 논문은 언어 모델에 대한 토큰 엔트로피의 변동을 최소화하도록 설계된 음성 인식 모델인 TEVR를 제안한다. 이 방법은 언어 모델이 이미 해당 토큰을 신뢰할 수 있고 정확하게 예측할 수 있다면, 음성 모델이 그 토큰을 정확히 인식할 필요가 없다는 사실을 활용한다. 우리는 9억 개의 파라미터를 가진 독일어 음성 인식 모델을 학습하여, CommonVoice 독일어 데이터셋에서 TEVR가 3.64%의 매우 경쟁력 있는 단어 오류율(Word Error Rate, WER)을 기록함으로써, 기존에 보고된 최고 성능보다 상대적으로 16.89%의 단어 오류율 감소를 달성함을 보였다. 앞으로 우리가 완전히 학습된 음성 인식 파이프라인을 커뮤니티에 공개함으로써, 향후 개인정보 보호를 고려한 오프라인 가상 비서의 발전이 이뤄지기를 기대한다.