4달 전
시퀀스 투 시퀀스 음성 인식을 위한 모델링 단위 선택에 관한 연구
Kazuki Irie; Rohit Prabhavalkar; Anjuli Kannan; Antoine Bruguier; David Rybach; Patrick Nguyen

초록
전통적인 음성 인식에서 음소(phoneme) 기반 모델은 영어와 같은 비음절(grapheme) 언어에 대해 자모(grapheme) 기반 모델을 능가합니다. 두 모델 간의 성능 차이는 일반적으로 훈련 데이터의 양이 증가함에 따라 줄어들곤 합니다. 본 연구에서는 주의기반 인코더-디코더 모델에서 모델링 단위 선택의 영향을 조사하였습니다. 우리는 다양한 대상 단위(음소, 자모, 워드피스(word-piece))를 사용하여 LibriSpeech 100시간, 460시간, 960시간 태스크에서 실험을 수행하였으며, 모든 태스크에서 자모 또는 워드피스 기반 모델이 음소 기반 모델보다 일관되게 우수한 성능을 보임을 확인하였습니다. 이는 사전이나 외부 언어 모델 없이 평가되었음에도 불구하고입니다.또한 우리는 모델의 보완성을 조사하였으며, 강력한 워드피스 기반 베이스라인으로 생성된 N-베스트 목록을 음소 또는 자모 모델로 재점수화(rescoring)하면 상대적으로 최대 9%까지 WERs를 개선할 수 있음을 발견하였습니다. 그러나 음소 시스템으로 생성된 N-베스트 목록을 재점수화하는 것은 제한적인 개선 효과만을 제공하였습니다. 추가 분석 결과, 워드피스 기반 모델은 음소 기반 모델보다 더 다양하고 따라서 더 낮은 오라클 WERs를 생성하는 N-베스트 가설들을 만들어냄을 확인하였습니다.