17일 전

다중 스트림 자기 주의(Multi-Stream Self-Attention)와 확장 1D 컨볼루션을 이용한 최신 기술 음성 인식

Kyu J. Han, Ramon Prieto, Kaixing Wu, Tao Ma
다중 스트림 자기 주의(Multi-Stream Self-Attention)와 확장 1D 컨볼루션을 이용한 최신 기술 음성 인식
초록

자기주의(self-attention)는 자연어처리(NLP) 분야의 다양한 하류 작업에서 큰 성공을 거두었으며, 이에 따라 음성 문제에도 자기주의를 적용해보려는 연구가 활발히 진행되고 있다. 그러나 자기주의가 음성 응용 분야에서 충분히 효과를 발휘하고 있다고 보기는 어렵다. 그 이유는 자기주의의 맥락에서 매우 상관관계가 강한 음성 프레임을 다루는 것이 어렵기 때문이다. 본 논문에서는 이러한 문제를 해결하고 자기주의 메커니즘을 음성 인식에 더 효과적으로 활용하기 위해 새로운 신경망 모델 아키텍처인 '다중 스트림 자기주의(multi-stream self-attention)'를 제안한다. 제안된 모델 아키텍처는 병렬로 구성된 자기주의 인코더 스트림들로 이루어져 있으며, 각 스트림은 고유한 확장률(dilation rate)을 가진 1차원 컨볼루션 계층들로 구성된 층과 그 다음에 자기주의 계층을 포함한다. 각 스트림 내의 자기주의 메커니즘은 입력 음성 프레임의 하나의 해상도에만 주의를 기울이며, 이로 인해 주의 집중 계산이 더욱 효율적으로 이루어질 수 있다. 이후 단계에서 모든 스트림의 출력을 연결(concatenate)한 후 선형 투영을 통해 최종 임베딩을 생성한다. 제안된 다중 스트림 자기주의 인코더 블록을 반복적으로 스택하고, 결과적으로 생성된 라티스(lattice)를 신경망 기반 언어 모델로 재평가(rescore)함으로써, LibriSpeech 코퍼스의 test-clean 데이터셋에서 단어 오류율(word error rate) 2.2%를 달성하였다. 이는 현재까지 보고된 해당 데이터셋에서 가장 우수한 성능이다.

다중 스트림 자기 주의(Multi-Stream Self-Attention)와 확장 1D 컨볼루션을 이용한 최신 기술 음성 인식 | 최신 연구 논문 | HyperAI초신경