Command Palette
Search for a command to run...
ニューラルネットワークを用いた音声のスーパーレゾリューション
ニューラルネットワークを用いた音声のスーパーレゾリューション
Kuleshov Volodymyr Enam S. Zayd Ermon Stefano
概要
本稿では、深層畳み込みニューラルネットワークを用いて、音声や音楽などの信号のサンプリングレートを向上させる新たな音声処理技術を紹介する。本モデルは、低品質と高品質の音声データペアを用いて学習させている。テスト時には、画像のスーパーレゾリューションと類似した補間プロセスを通じて、低解像度信号内の欠落したサンプルを予測する。本手法は構成が単純であり、特別な音声処理技術を用いない。実験の結果、2倍、4倍、6倍の拡大率において、標準的な音声および音楽ベンチマークで既存のベースライン手法を上回った。本手法は電話通話、圧縮、テキストから音声への変換(TTS)など、実用的な応用が可能であり、前向きな畳み込みアーキテクチャが音声生成タスクにおいて有効であることを示している。