2달 전

트랜스포머 네트워크를 이용한 신경망 음성 합성

Naihan Li; Shujie Liu; Yanqing Liu; Sheng Zhao; Ming Liu; Ming Zhou
트랜스포머 네트워크를 이용한 신경망 음성 합성
초록

단일 경로 신경 텍스트-음성 변환(TTS) 방법(예: Tacotron2)이 제안되어 최고 수준의 성능을 달성하였지만, 여전히 두 가지 문제를 겪고 있습니다: 1) 학습 및 추론 과정에서 낮은 효율성; 2) 현재의 순환 신경망(RNNs)을 사용하여 장기 의존성을 모델링하기 어려움. 이 연구는 신경 기계 번역(NMT)에서 Transformer 네트워크의 성공에 영감을 받아, 다중 헤드 주의 메커니즘을 도입하여 RNN 구조와 Tacotron2의 원래 주의 메커니즘을 대체하였습니다. 다중 헤드 자기 주의 메커니즘 덕분에 인코더와 디코더의 은닉 상태가 병렬로 구성되므로 학습 효율성이 향상됩니다. 동시에, 서로 다른 시점에서의 임의 두 입력이 자기 주의 메커니즘에 의해 직접 연결되므로 장기 의존성 문제를 효과적으로 해결할 수 있습니다. 폰음 시퀀스를 입력으로 사용하여, 우리의 Transformer TTS 네트워크는 멜 스펙트로그램을 생성하며, 이를 WaveNet 보코더를 통해 최종 오디오 결과물을 출력합니다. 실험을 수행하여 새로운 네트워크의 효율성과 성능을 검증하였습니다. 효율성 측면에서는 우리의 Transformer TTS 네트워크가 Tacotron2보다 약 4.25배 빠른 학습 속도를 보였습니다. 성능 측면에서는 엄격한 인간 평가를 통해 제안된 모델이 최고 수준의 성능(Tacotron2보다 0.048 점 높음)을 달성하였으며, 인간 음질과 매우 가깝다는 것을 확인할 수 있었습니다(평균 의견 스케일(MOS)에서 4.39 대 4.44).

트랜스포머 네트워크를 이용한 신경망 음성 합성 | 최신 연구 논문 | HyperAI초신경