17일 전

기반 Transformer의 ASR에 시간 감소 레이어를 통합하고, 자기 지식 증류를 이용한 미세조정을 수행한 연구

Md Akmal Haidar, Chao Xing, Mehdi Rezagholizadeh
기반 Transformer의 ASR에 시간 감소 레이어를 통합하고, 자기 지식 증류를 이용한 미세조정을 수행한 연구
초록

엔드투엔드 자동 음성 인식(ASR)은 기존의 ASR와 달리 음성 인코더로부터 의미 표현을 학습하는 모듈을 갖지 않습니다. 또한 음성 표현의 더 높은 프레임 레이트는 모델이 의미 표현을 적절히 학습하는 것을 방해합니다. 따라서 음성 인코더의 낮은 프레임 레이트를 갖는 모델이 더 우수한 성능을 보입니다. 트랜스포머 기반 ASR의 경우, 낮은 프레임 레이트는 의미 표현을 더 잘 학습하는 데 중요한 요소일 뿐만 아니라, 학습 및 추론 시 모두 O(n²)의 복잡도를 가지는 자기 주목(self-attention) 메커니즘으로 인해 계산 복잡도를 줄이는 데도 기여합니다. 본 논문에서는 전통적인 서브샘플링 방법 외에 트랜스포머 인코더 레이어 내부에 시간 축소 레이어(time reduction layer)를 도입하는 트랜스포머 기반 ASR 모델을 제안합니다. 이를 통해 입력 특징의 프레임 레이트를 추가로 감소시켜, 학습 및 추론 시 자기 주목 과정의 계산 비용을 절감하고 성능 향상을 이룹니다. 또한, 사전 학습된 ASR 모델의 미세 조정을 위해 자기 지식 증류(self-knowledge distillation, S-KD)를 활용하는 새로운 접근법을 제안하며, 이는 본 ASR 모델의 성능을 더욱 향상시킵니다. LibriSpeech 데이터셋을 대상으로 한 실험 결과, 제안하는 방법은 기존의 모든 트랜스포머 기반 ASR 시스템을 초과하는 성능을 보였으며, 언어 모델(LM) 융합을 통해 외부 데이터 없이 단 3,000만 파라미터로도 트랜스포머 기반 ASR 모델 중 최신의 단어 오류율(WER) 기록을 달성하였습니다.