HyperAIHyperAI

Command Palette

Search for a command to run...

Vocos:高品質音声合成における時領域型とフーリエ基底型ニューラルボコーダーのギャップを埋める

Hubert Siuzdak

概要

近年のニューラルボーカイザー技術の進展は、主に時間領域で動作する生成的対抗ネットワーク(GAN)によって牽引されている。このアプローチは効果的ではあるが、時間周波数表現がもたらす誘導バイアス(inductive bias)を無視しており、冗長かつ計算負荷の高いアップサンプリング処理が生じる。一方で、フーリエに基づく時間周波数表現は、人間の聴覚認識とより整合性が高く、その計算には確立された高速アルゴリズムが存在するため、魅力的な代替手段として注目されている。しかし、複素数値のスペクトログラムを直接再構成する試みは、歴史的にも位相回復(phase recovery)の問題により困難であった。本研究では、このようなギャップを埋めるために、フーリエスペクトル係数を直接生成する新モデル「Vocos」を提案する。評価結果により、Vocosは音質において最先端の性能を達成しているだけでなく、計算効率も顕著に向上し、従来の時間領域ニューラルボーカイザー手法と比較して、処理速度が1桁以上向上することを実現した。本研究のソースコードおよびモデル重みは、https://github.com/gemelo-ai/vocos にてオープンソースとして公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています