17일 전

릴랙스드 어텐션: 엔드투엔드 자동 음성 인식 성능을 향상시키는 간단한 방법

Timo Lohrenz, Patrick Schwarz, Zhengyang Li, Tim Fingscheidt
릴랙스드 어텐션: 엔드투엔드 자동 음성 인식 성능을 향상시키는 간단한 방법
초록

최근 들어, 주의 기반 인코더-디코더(AED) 모델은 여러 작업에서 엔드투엔드 음성 인식(ASR)에 높은 성능을 보여주고 있다. 본 논문에서는 이러한 모델의 과도한 자신감 문제를 해결하기 위해, 훈련 중에 인코더-디코더 주의 가중치에 균일 분포를 서서히 주입하는 '완화된 주의(relaxed attention)' 개념을 제안한다. 이 방법은 단 두 줄의 코드로 쉽게 구현 가능하며, 매우 간단한 기법이다. 우리는 다양한 AED 모델 아키텍처와 대표적인 두 가지 ASR 작업인 월스트리트저널(WSJ) 및 리브리스피치(Librispeech)에서 완화된 주의의 효과를 조사하였다. 그 결과, 완화된 주의를 사용해 훈련된 트랜스포머 모델은 외부 언어 모델을 사용한 디코딩 시 일관되게 기준 모델보다 우수한 성능을 보였다. WSJ 데이터셋에서 우리는 트랜스포머 기반 엔드투엔드 음성 인식에 대해 새로운 벤치마크를 설정하였으며, 단어 오류율(WER)은 3.65%로, 기존 최고 성능(4.20%) 대비 13.1% 상대적 개선을 달성하였다. 이 성과는 단 하나의 하이퍼파라미터만 추가함으로써 달성된 것이다.