
要約
テキストプロンプトから長尺の44.1kHzステレオ音声を生成することは計算的に負荷が高い課題である。さらに、これまでの多くの研究では、音楽や効果音が自然にその持続時間に変動があるという点を扱っていない。本研究では、テキストプロンプトを使用して44.1kHzの長尺で可変長のステレオ音楽や効果音を効率的に生成する手法に焦点を当てている。Stable Audioは潜在拡散モデルに基づいており、その潜在空間は完全畳み込み型変分自己符号化器によって定義されている。このモデルはテキストプロンプトとタイミングエンベッドに条件付けられており、生成される音楽や効果音の内容と長さに対して細かい制御が可能となっている。Stable AudioはA100 GPU上で8秒以内に最大95秒の44.1kHzステレオ信号をレンダリングできる。計算効率が高く推論速度も速いにもかかわらず、2つの公開されたテキストから音楽・音声への変換ベンチマークにおいて最良の結果を示しており、最先端のモデルとは異なり構造のある音楽とステレオサウンドを生成することが可能である。