6ヶ月前

音声および音声処理

ディープラーニング

オーディオ

Hubert Siuzdak

概要

近年のニューラルボーカイザー技術の進展は、主に時間領域で動作する生成的対抗ネットワーク（GAN）によって牽引されている。このアプローチは効果的ではあるが、時間周波数表現がもたらす誘導バイアス（inductive bias）を無視しており、冗長かつ計算負荷の高いアップサンプリング処理が生じる。一方で、フーリエに基づく時間周波数表現は、人間の聴覚認識とより整合性が高く、その計算には確立された高速アルゴリズムが存在するため、魅力的な代替手段として注目されている。しかし、複素数値のスペクトログラムを直接再構成する試みは、歴史的にも位相回復（phase recovery）の問題により困難であった。本研究では、このようなギャップを埋めるために、フーリエスペクトル係数を直接生成する新モデル「Vocos」を提案する。評価結果により、Vocosは音質において最先端の性能を達成しているだけでなく、計算効率も顕著に向上し、従来の時間領域ニューラルボーカイザー手法と比較して、処理速度が1桁以上向上することを実現した。本研究のソースコードおよびモデル重みは、https://github.com/gemelo-ai/vocos にてオープンソースとして公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

ディープラーニング

オーディオ

Hubert Siuzdak

概要

近年のニューラルボーカイザー技術の進展は、主に時間領域で動作する生成的対抗ネットワーク（GAN）によって牽引されている。このアプローチは効果的ではあるが、時間周波数表現がもたらす誘導バイアス（inductive bias）を無視しており、冗長かつ計算負荷の高いアップサンプリング処理が生じる。一方で、フーリエに基づく時間周波数表現は、人間の聴覚認識とより整合性が高く、その計算には確立された高速アルゴリズムが存在するため、魅力的な代替手段として注目されている。しかし、複素数値のスペクトログラムを直接再構成する試みは、歴史的にも位相回復（phase recovery）の問題により困難であった。本研究では、このようなギャップを埋めるために、フーリエスペクトル係数を直接生成する新モデル「Vocos」を提案する。評価結果により、Vocosは音質において最先端の性能を達成しているだけでなく、計算効率も顕著に向上し、従来の時間領域ニューラルボーカイザー手法と比較して、処理速度が1桁以上向上することを実現した。本研究のソースコードおよびモデル重みは、https://github.com/gemelo-ai/vocos にてオープンソースとして公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Vocos：高品質音声合成における時領域型とフーリエ基底型ニューラルボコーダーのギャップを埋める | 記事 | HyperAI超神経