2달 전

신경망을 이용한 오디오 슈퍼 리졸루션

Kuleshov, Volodymyr ; Enam, S. Zayd ; Ermon, Stefano

초록

우리는 딥 컨볼루션 신경망을 사용하여 음성이나 음악과 같은 신호의 샘플링률을 높이는 새로운 오디오 처리 기술을 소개합니다. 우리의 모델은 저품질과 고품질 오디오 예제 쌍으로 훈련됩니다. 테스트 시에는 저해상도 신호 내에서 부족한 샘플을 이미지 슈퍼 리졸루션 과정과 유사한 보간 과정에서 예측합니다. 우리의 방법은 간단하며 특화된 오디오 처리 기술을 포함하지 않습니다. 실험에서는 2배, 4배, 6배 확대 비율에서 표준 음성 및 음악 벤치마크에서 기존 기법들을 능가하는 성능을 보였습니다. 이 방법은 전화 통신, 압축, 텍스트-음성 생성 등에 실용적인 적용이 가능하며, 피드포워드 컨볼루션 구조가 오디오 생성 작업에서 효과적임을 입증합니다.