2달 전
WaveNet: 원시 오디오를 위한 생성 모델
Aaron van den Oord; Sander Dieleman; Heiga Zen; Karen Simonyan; Oriol Vinyals; Alex Graves; Nal Kalchbrenner; Andrew Senior; Koray Kavukcuoglu

초록
이 논문은 원시 오디오 웨이브폼을 생성하기 위한 딥 뉴럴 네트워크인 WaveNet을 소개합니다. 이 모델은 완전 확률적이고 자기 회귀적이며, 각 오디오 샘플의 예측 분포는 모든 이전 샘플에 조건부로 설정됩니다. 그럼에도 불구하고, 초당 수만 개의 샘플을 가진 데이터에서 효율적으로 학습될 수 있음을 보여줍니다. 텍스트-음성 변환에 적용할 때, WaveNet은 최고의 성능을 발휘하며, 인간 청취자들은 영어와 만다린어 모두에서 가장 우수한 매개변수 기반 및 연결 기반 시스템보다 훨씬 자연스럽다고 평가했습니다. 단일 WaveNet은 다양한 화자의 특성을 동등한 충실도로 포착할 수 있으며, 화자 식별에 조건부로 설정함으로써 그들 사이를 전환할 수 있습니다. 음악 모델링을 위해 학습되었을 때, 우리는 새로운 그리고 종종 매우 현실적인 음악 조각들을 생성한다는 것을 발견했습니다. 또한 WaveNet이 판별 모델로서 활용될 수 있으며, 음소 인식에 대한 유망한 결과를 반환하는 것을 보여주었습니다.