
要約
新しい音声処理技術を紹介します。この技術は深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks)を使用して、スピーチや音楽などの信号のサンプリングレートを向上させます。当モデルは低品質と高品質の音声サンプルのペアで学習し、テスト時には低解像度信号内の欠落するサンプルを画像のスーパーレゾリューションに類似した補間プロセスで予測します。本手法は単純であり、専門的な音声処理技術を必要としません。実験では、2倍、4倍、6倍のアップスケーリング比率において標準的なスピーチおよび音楽ベンチマークに対してベースラインを上回る性能を示しました。この手法は電話通信、圧縮、テキストから音声への変換などに実用的な応用が見られ、フィードフォワード畳み込み構造が音声生成タスクにおいて有効であることを示しています。