8ヶ月前

拡散モデル

アプローチ／フレームワーク

オーディオ

Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons

概要

テキストプロンプトから長尺の44.1kHzステレオ音声を生成することは計算的に負荷が高い課題である。さらに、これまでの多くの研究では、音楽や効果音が自然にその持続時間に変動があるという点を扱っていない。本研究では、テキストプロンプトを使用して44.1kHzの長尺で可変長のステレオ音楽や効果音を効率的に生成する手法に焦点を当てている。Stable Audioは潜在拡散モデルに基づいており、その潜在空間は完全畳み込み型変分自己符号化器によって定義されている。このモデルはテキストプロンプトとタイミングエンベッドに条件付けられており、生成される音楽や効果音の内容と長さに対して細かい制御が可能となっている。Stable AudioはA100 GPU上で8秒以内に最大95秒の44.1kHzステレオ信号をレンダリングできる。計算効率が高く推論速度も速いにもかかわらず、2つの公開されたテキストから音楽・音声への変換ベンチマークにおいて最良の結果を示しており、最先端のモデルとは異なり構造のある音楽とステレオサウンドを生成することが可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

拡散モデル

アプローチ／フレームワーク

オーディオ

Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons

概要

テキストプロンプトから長尺の44.1kHzステレオ音声を生成することは計算的に負荷が高い課題である。さらに、これまでの多くの研究では、音楽や効果音が自然にその持続時間に変動があるという点を扱っていない。本研究では、テキストプロンプトを使用して44.1kHzの長尺で可変長のステレオ音楽や効果音を効率的に生成する手法に焦点を当てている。Stable Audioは潜在拡散モデルに基づいており、その潜在空間は完全畳み込み型変分自己符号化器によって定義されている。このモデルはテキストプロンプトとタイミングエンベッドに条件付けられており、生成される音楽や効果音の内容と長さに対して細かい制御が可能となっている。Stable AudioはA100 GPU上で8秒以内に最大95秒の44.1kHzステレオ信号をレンダリングできる。計算効率が高く推論速度も速いにもかかわらず、2つの公開されたテキストから音楽・音声への変換ベンチマークにおいて最良の結果を示しており、最先端のモデルとは異なり構造のある音楽とステレオサウンドを生成することが可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています