HyperAI超神経

Stable-audio-open-small: オーディオ生成モデルのデモ

1. チュートリアルの概要

建てる

Stable-audio-open-smallは、Stability AIとArmが2025年5月13日に発表した音声生成AIモデルです。高品質なショートオーディオコンテンツを効率的に作成することに重点を置いています。高度な拡散モデル技術に基づき、テキストプロンプトを通じてミュージッククリップ、効果音、アンビエントサウンド、その他多様なオーディオ(ドラムループ、メロディクリップ、自然なサウンドスケープなど)を迅速に生成できます。音楽制作、ゲーム開発、映画やテレビのサウンドトラックなどの様々な用途に適しています。関連論文は以下です。敵対的事後学習による高速テキスト音声生成”。

このチュートリアルでは、シングルカード A6000 リソースを使用します。生成されるプロンプトは英語のみをサポートします。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. Web ページに入ると、モデルと会話を開始できます。

ヒント:パラメータ設定が適切でないとノイズが発生する可能性があります。Safariブラウザをご利用の場合、オーディオが直接再生されない場合がありますので、再生前にダウンロードしてください。

利用手順

パラメータの説明:

  • 合計秒数: 生成されたオーディオの合計継続時間。
  • 手順: モデルの推論プロセスにおける反復回数またはステップ数は、モデルが結果を生成するために実行する最適化ステップの数を表します。ステップ数が多いほど、一般的にはより洗練された結果が得られますが、計算時間が長くなる可能性があります。
  • CFGスケール: 生成モデルにおける条件入力が生成結果に与える影響を制御するために使用されます。値が高いほど、テキスト記述との整合性が高まります。

サンプラーパラメータ

  • シード: 一定に保たれるランダム シードは、同じ結果を繰り返し生成する可能性があります。
  • CFG間隔の最小値: 条件ガイドを拡散プロセスの時間開始点に設定します。
  • CFG間隔の最大値: 拡散プロセスの時間終了点に条件ガイドを設定します。
  • CFG 再スケール量: 条件強度を動的に調整することで、数値オーバーフローを防ぎ、高条件強度下での生成安定性が向上します。

出力パラメータ

  • ファイル形式: 出力ファイル形式を選択します。
  • ファイル名: 出力ファイルの命名方法を選択します。
  • スペックプレビュー: スペクトルグラフをプレビューするかどうかを選択します。
  • 合計秒数にカット: 指定された期間にトリムするかどうか。
  • 自動再生: 自動的に再生するかどうか。
  • 無限ラジオ: ループ内で生成するかどうか。
  • 自動ダウンロード: 自動的にダウンロードするかどうか。

オーディオを初期化する

  • オーディオを初期化します: 新しいオーディオを生成するには、最初のオーディオ ファイルを選択します。
  • 初期ノイズレベル: 生成されるオーディオの初期のランダム性を制御するノイズ レベルを初期化します。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。