HyperAI

このNotebookを実行 Discordで議論

日付

1年前

サイズ

1.15 GB

タグ

音声分類

GitHub

stepfun-ai/Step-Audio

1. チュートリアルの概要

Step-Audioは、音声理解と生成制御を統合した業界初の製品レベルのオープンソースリアルタイム音声対話システムです。2025年にStepfun-AIチームによってオープンソース化されました。多言語生成（中国語、英語、日本語など）、音声感情（喜び、悲しみなど）、方言（広東語、四川語など）、制御可能な発話速度とリズムスタイルをサポートし、RAPやハミングなどをサポートします。

本教程以 Step-Audio-TTS-3B 作为演示，算力资源采用「单卡 RTX4090」。

サポート機能:

一般的な音声合成

公式サイトのデフォルトの音声キャラクターTingtingをプリセットし、Nezhaの音声を追加し、多言語生成、感情、方言などの設定をサポートします。

音楽合成

公式サイトのデフォルトの音声キャラクターTingtingをプリセットし、Nezhaの声を追加し、RAPとハミングをサポート

音声クローン

ユーザーがカスタムオーディオをアップロードし、オーディオのテキストコンテンツを入力し、必要に応じてロール名を定義できるようにサポートします。

2. 操作手順

1. コンテナを起動後、API アドレスをクリックして Web インターフェイスに入ります (「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。1 分ほど待ってからもう一度お試しください)。

2.ウェブページに入ると、多機能音声合成を実行できます

1. 一般的な音声合成

一般的な音声合成

2. RAP/ハミングモード

RAP / ハムモード

3. 音声クローン

音声クローン

ヒント: 生成するテキストの前に (RAP) または (humming) を入力すると、RAP やハミングのサウンドクローン効果をすばやく生成できます。

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています