HyperAIHyperAI

Command Palette

Search for a command to run...

高速時刻条件付き潜在音響拡散

Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons

概要

テキストプロンプトから長尺の44.1kHzステレオ音声を生成することは計算的に負荷が高い課題である。さらに、これまでの多くの研究では、音楽や効果音が自然にその持続時間に変動があるという点を扱っていない。本研究では、テキストプロンプトを使用して44.1kHzの長尺で可変長のステレオ音楽や効果音を効率的に生成する手法に焦点を当てている。Stable Audioは潜在拡散モデルに基づいており、その潜在空間は完全畳み込み型変分自己符号化器によって定義されている。このモデルはテキストプロンプトとタイミングエンベッドに条件付けられており、生成される音楽や効果音の内容と長さに対して細かい制御が可能となっている。Stable AudioはA100 GPU上で8秒以内に最大95秒の44.1kHzステレオ信号をレンダリングできる。計算効率が高く推論速度も速いにもかかわらず、2つの公開されたテキストから音楽・音声への変換ベンチマークにおいて最良の結果を示しており、最先端のモデルとは異なり構造のある音楽とステレオサウンドを生成することが可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
高速時刻条件付き潜在音響拡散 | 記事 | HyperAI超神経