17일 전

엔드투엔드 구두 언어 이해를 위한 두 단계 텍스트 지식 증류

Seongbin Kim, Gyuwan Kim, Seongjin Shin, Sangmin Lee
엔드투엔드 구두 언어 이해를 위한 두 단계 텍스트 지식 증류
초록

엔드투엔드 접근법은 전통적인 파이프라인 시스템의 한계를 완화함으로써 더 정확하고 효율적인 음성 언어 이해(SLU) 시스템을 위한 새로운 길을 열어준다. 기존의 연구들은 자동 음성 인식(ASR)을 통한 사전 학습 또는 지식 증류(knowledge distillation)를 통한 미세조정을 통해 SLU 모델에 텍스트 정보를 활용해왔다. 본 연구는 텍스트 정보를 더 효과적으로 활용하기 위해, 사전 학습 및 미세조정 단계에서 두 모달리티(음성과 텍스트)의 발화 수준 표현과 예측 로짓을 순차적으로 매칭하는 이단계 텍스트 지식 증류 방법을 제안한다. 음성 인코더로 vq-wav2vec BERT를 사용한 이유는 이 모델이 일반적이고 풍부한 특징을 효과적으로 추출하기 때문이다. 또한, 무작위로 이산 음성 토큰과 맥락화된 숨겨진 표현의 구간을 마스킹하는 데이터 증강 기법을 도입함으로써, 특히 저자원 환경에서 성능을 향상시켰다. 결과적으로 본 연구는 Fluent Speech Commands 데이터셋에서 최신 기술 수준을 돌파하였으며, 전체 데이터셋 설정에서 99.7%의 테스트 정확도와 10% 서브셋 설정에서 99.5%의 정확도를 달성하였다. 다양한 제거 실험(Ablation studies)을 통해 사용된 모든 방법이 최종 성능에 필수적임을 실증적으로 입증하였으며, 음성 언어 이해 분야의 최적 실천 방안을 제시한다. 코드는 https://github.com/clovaai/textual-kd-slu 에서 공개되어 있다.