17일 전
사전 훈련된 언어 모델에서 Cif 기반 음성 인식기로의 지식 전이: 계층적 다이스틸레이션을 통한 접근
Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu

초록
대규모 사전 학습된 언어 모델(PLMs)은 자연어 처리 작업에서 큰 잠재력을 보여주고 있다. 이러한 PLMs의 능력을 활용하여 자동 음성 인식(ASR) 시스템을 향상시키는 연구 방향도 주목받고 있다. 그러나 기존 연구들은 PLMs의 유연하지 못한 구조와 PLMs의 충분한 활용 부족이라는 한계를 지닌 경우가 많다. 이러한 문제를 완화하기 위해, 본 연구에서는 연속적 통합 및 화재(CIF) 기반 ASR 모델에 계층적 지식 증류(HKD)를 제안한다. PLMs에서 ASR 모델로 지식을 전달하기 위해 HKD는 음성 수준에서 대조적 손실을 사용한 다모달 지식 증류와 언어 수준에서 회귀 손실을 사용한 지식 증류를 활용한다. 기존의 CIF 기반 모델과 비교했을 때, 본 방법은 AISHELL-1 및 LibriSpeech 데이터셋에서 각각 15%, 9%의 상대 오류율 감소를 달성하였다.