17일 전
음성 응용 분야에서 Transformer와 RNN의 비교 연구
Shigeki Karita, Nanxin Chen, Tomoki Hayashi, Takaaki Hori, Hirofumi Inaguma, Ziyan Jiang, Masao Someki, Nelson Enrique Yalta Soplin, Ryuichi Yamamoto, Xiaofei Wang, Shinji Watanabe, Takenori Yoshimura, Wangyou Zhang

초록
시퀀스-투-시퀀스 모델은 자동 음성 인식(ASR), 음성 번역(ST), 텍스트-to-음성(TTS) 등 엔드투엔드 음성 처리 분야에서 널리 활용되고 있다. 본 논문은 신경망 기계 번역 및 기타 자연어 처리 응용 분야에서 최고 성능을 달성한 새로운 시퀀스-투-시퀀스 모델인 Transformer에 초점을 맞추고 있다. 우리는 총 15개의 ASR, 1개의 다국어 ASR, 1개의 ST, 2개의 TTS 벤치마크에서 Transformer와 기존의 순환 신경망(RNN)을 실험적으로 비교·분석하는 철저한 연구를 수행하였다. 실험 결과, 각 작업별로 다양한 학습 팁과 Transformer의 뚜렷한 성능 우위를 확인할 수 있었으며, 특히 15개 ASR 벤치마크 중 13개에서 RNN 대비 Transformer의 놀라운 우수성을 입증하였다. 이러한 흥미로운 성과를 공동 연구자들과 더 넓은 커뮤니티가 재현할 수 있도록, 모든 ASR, ST, TTS 작업에 대해 오픈 소스 및 공개된 데이터셋을 활용한 Kaldi 스타일의 재현 가능한 조리법을 준비 중이다.