2달 전
주목기반 모델을 이용한 음성 인식
Jan Chorowski; Dzmitry Bahdanau; Dmitriy Serdyuk; Kyunghyun Cho; Yoshua Bengio

초록
입력 데이터를 주의 메커니즘을 통해 조건부로 제어하는 순환 시퀀스 생성기는 기계 번역, 필기체 합성 및 이미지 캡션 생성 등 다양한 작업에서 최근 매우 우수한 성능을 보여주었습니다. 우리는 이 주의 메커니즘을 음성 인식에 필요한 특징으로 확장하였습니다. 실험 결과, 기계 번역에 사용된 모델을 적응시켜 TIMIT 음소 인식 작업에서 경쟁력 있는 18.7%의 음소 오류율(PER)을 달성하였지만, 이 모델은 훈련된 문장과 대략적으로 같은 길이의 발화에만 적용될 수 있었습니다. 우리는 이 실패의 정성적인 설명을 제공하고, 이 문제를 완화하기 위해 주의 메커니즘에 위치 인식 기능을 추가하는 새로운이고 일반적인 방법을 제안합니다. 새로운 방법은 긴 입력에 견고한 모델을 제공하며, 단일 발화에서는 18%의 PER를, 10배 긴 (반복된) 발화에서는 20%의 PER를 달성하였습니다. 마지막으로, 주의 메커니즘이 단일 프레임에 너무 집중하지 않도록 하는 변경 사항을 제안하여, 이를 통해 PER가 17.6% 수준으로 더 줄어들었습니다.