토큰 레벨 앙상블 디스틸레이션을 이용한 그래프임-폰임 변환

그래프임-포네임(G2P) 변환은 자동 음성 인식 및 텍스트-음성 시스템에서 중요한 작업입니다. 최근에는 G2P 변환이 시퀀스-투-시퀀스 작업으로 간주되어 RNN 또는 CNN 기반의 인코더-디코더 프레임워크를 통해 모델링되고 있습니다. 그러나 이전 연구들은 실제 시스템에 G2P 모델을 배포할 때 발생하는 실용적인 문제들을 고려하지 않았습니다. 예를 들어, 추가적인 라벨이 없는 데이터를 활용하여 정확도를 향상시키는 방법이나 온라인 배포를 위해 모델 크기를 줄이는 방법 등이 그러합니다. 본 연구에서는 이러한 문제들을 해결하기 위해 토큰 수준 앙상블 디스틸레이션(token-level ensemble distillation)을 제안합니다. 이 방법은 (1) 추가적인 라벨이 없는 데이터에서 지식을 추출하여 정확도를 향상시키고, (2) 모델 크기를 줄이면서도 높은 정확도를 유지할 수 있는 두 가지 장점을 가지고 있어, 온라인 생산 시스템에서 매우 실용적이고 유용합니다. 우리는 토큰 수준 지식 디스틸레이션을 사용하여 시퀀스 수준 대응보다 더 나은 정확도를 달성하였습니다. 또한, RNN 또는 CNN 기반 모델 대신 트랜스포머(Transformer)를 채택하여 G2P 변환의 정확도를 더욱 향상시켰습니다. 공개된 CMUDict 데이터셋과 내부 영어 데이터셋을 이용한 실험 결과, 제안된 방법의 효과가 입증되었습니다. 특히, 우리의 방법은 CMUDict 데이터셋에서 19.88%의 WER(단어 오류율)을 달성하였으며, 이는 이전 연구들보다 4.22% 이상 WER가 낮아 새로운 최고 성능 결과(SOTA)를 설정하였습니다.