16日前

Vocos:高品質音声合成における時領域型とフーリエ基底型ニューラルボコーダーのギャップを埋める

Hubert Siuzdak
Vocos:高品質音声合成における時領域型とフーリエ基底型ニューラルボコーダーのギャップを埋める
要約

近年のニューラルボーカイザー技術の進展は、主に時間領域で動作する生成的対抗ネットワーク(GAN)によって牽引されている。このアプローチは効果的ではあるが、時間周波数表現がもたらす誘導バイアス(inductive bias)を無視しており、冗長かつ計算負荷の高いアップサンプリング処理が生じる。一方で、フーリエに基づく時間周波数表現は、人間の聴覚認識とより整合性が高く、その計算には確立された高速アルゴリズムが存在するため、魅力的な代替手段として注目されている。しかし、複素数値のスペクトログラムを直接再構成する試みは、歴史的にも位相回復(phase recovery)の問題により困難であった。本研究では、このようなギャップを埋めるために、フーリエスペクトル係数を直接生成する新モデル「Vocos」を提案する。評価結果により、Vocosは音質において最先端の性能を達成しているだけでなく、計算効率も顕著に向上し、従来の時間領域ニューラルボーカイザー手法と比較して、処理速度が1桁以上向上することを実現した。本研究のソースコードおよびモデル重みは、https://github.com/gemelo-ai/vocos にてオープンソースとして公開されている。

Vocos:高品質音声合成における時領域型とフーリエ基底型ニューラルボコーダーのギャップを埋める | 最新論文 | HyperAI超神経