17일 전
다중 헤드 상태 공간 모델을 활용한 음성 인식
Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales

초록
최근 상태공간 모델(State space models, SSMs)은 소규모 시계열 및 언어 모델링 과제에서 주목할 만한 성과를 보이며, 많은 주목 기반 접근법과 견줄 만큼 뛰어난 성능을 보여주고 있다. 본 논문에서는 병렬 헤드들이 시계열 데이터에서 국소적이고 전역적인 시적 동역학을 학습하도록 설계된 특수 게이팅 메커니즘을 갖춘 다중 헤드 상태공간(MH-SSM) 아키텍처를 제안한다. 이 새로운 모델은 트랜스포머 인코더 내에서 다중 헤드 어텐션의 즉시 대체 가능한 대안으로 사용될 수 있으며, LibriSpeech 음성 인식 코퍼스에서 기존 트랜스포머 트랜스듀서보다 훨씬 뛰어난 성능을 달성한다. 더 나아가, 트랜스포머 블록에 MH-SSM 레이어를 추가하여 'Stateformer'라 명명한 모델을 구성하였으며, 외부 언어 모델을 사용하지 않고도 LibriSpeech 작업에서 최신 기술 수준의 성능을 달성하였다. 개발 세트와 테스트 세트에서 각각 1.76%/4.37%와 1.91%/4.36%의 단어 오류율(Word Error Rate)을 기록하였다.