17일 전
단일 헤드 어텐션 기반 시퀀스-투-시퀀스 모델: Switchboard에서 최신 성능 달성
Zoltán Tüske, George Saon, Kartik Audhkhasi, Brian Kingsbury

초록
일반적으로 직렬 시퀀스-투-시퀀스(seq2seq) 음성 인식 모델이 하이브리드 모델과 경쟁 가능하다는 것은, 적어도 1,000시간 이상의 대량 데이터가 훈련에 사용될 때에 한해 성립한다고 여겨져 왔다. 본 논문에서는 단일 헤드 어텐션과 LSTM 기반 모델을 사용하여 Switchboard-300 데이터베이스에서 최첨단 수준의 인식 성능을 달성할 수 있음을 보여준다. 교차 발화 언어 모델을 활용한 단일 패스의 화자 독립 시스템은, 발음 사전 없이 Hub5’00의 Switchboard 및 CallHome 하위 집합에서 각각 6.4%, 12.5%의 단어 오류율(WER)을 기록한다. 이러한 성능을 달성하기 위해서는 주의 깊은 정규화와 데이터 증강이 필수적이지만, Switchboard-2000에 대한 실험 결과는 더 많은 데이터가 무엇보다도 효과적임을 입증한다. 종합적으로 다양한 정규화 기법과 간단하지만 비교적 큰 크기의 모델 조합이 새로운 최고 성능을 달성하였으며, 외부 데이터 자원 없이 SWB-2000 데이터를 사용하여 Switchboard 및 CallHome 집합에서 각각 4.7%와 7.8%의 WER를 기록하였다.