Command Palette
Search for a command to run...
AERO: スペクトル領域におけるオーディオのスーパーレゾリューション
AERO: スペクトル領域におけるオーディオのスーパーレゾリューション
Moshe Mandel Or Tal Yossi Adi
概要
私たちはAERO(Audio Enhancement and Resolution Optimization)という音声スーパーレゾリューションモデルを紹介します。このモデルは、スペクトル領域で音声と音楽信号を処理します。AEROはU-Netのようなスキップ接続を持つエンコーダー-デコーダー構造に基づいています。時間領域と周波数領域の損失関数の両方を使用してモデルを最適化しています。具体的には、再構成損失と敵対的および特徴識別子による知覚的な損失関数を組み合わせています。位相情報をより適切に扱うために、提案手法は複素値スペクトログラムに対して2つの独立したチャネルを使用します。従来の研究では主に低周波数と高周波数の結合に焦点を当てていましたが、本手法は直接全周波数帯域を予測します。私たちは、音声と音楽の両方について広範なサンプルレートで高い性能を示しています。AEROはLog-Spectral Distance(LSD)、ViSQOL、そして主観的なMUSHRAテストにおいて評価されたベースラインを超える性能を発揮しています。オーディオサンプルとコードは以下のURLから入手可能です: https://pages.cs.huji.ac.il/adiyoss-lab/aero