1. チュートリアルの概要

Ebook2Audiobook は、2024 年にオープンソース化されたツールで、電子ブック (eBook) をオーディオブック (オーディオブック) に変換するように設計されています。このプロジェクトは、高度な Text-to-Speech (TTS) テクノロジーを使用して、電子書籍内のテキストコンテンツを音声に自動的に変換し、ユーザーが聞くことができるオーディオブックを生成します。 Ebook2Audiobook は、EPUB、PDF、MOBI などのさまざまな電子ブック形式をサポートし、章の構造とメタデータを保存できるため、生成されたオーディオブックのナビゲーションと理解が容易になります。

プロジェクトの特徴:

📖 Calibre を使用して電子書籍をテキスト形式に変換します。
📚電子書籍を章に分割して音声を整理します。
🎙️Coqui XTTSv2 と Fairseq を使用した高品質のテキスト読み上げ。
🗣️ オプションの音声クローン作成。独自の音声ファイルを使用します。
🌍1107言語をサポート（デフォルトは英語）

新しい v2.0 Web GUI インターフェイスの効果

2. 操作手順

1. コンテナを起動します

次に、API アドレスをクリックして Web インターフェイスに入ります。

2. プロセスのデモンストレーション

ご注意ください：

このプロジェクトには「モデル読み込みプロセス」があり、これには約 3 ～ 4 分かかります。
プログレスバーが生成された後、オンラインディスプレイオーディオが表示できない場合は、Web ページを更新するか、ローカルにダウンロードして表示してください。
txt ドキュメントを使用する場合、最初の行のみが読み取られます。
電子書籍の言語は選択した言語と一致している必要があり、そうでない場合は「人間以外の言語」が生成されることに注意してください。
このプロジェクトでは、Fine Tuned Models は標準モデルのみをキャッシュします。

必須：

電子書籍ドキュメント
言語を選択してください

図1 主なプロセス

図 2 パラメータパラメータの生成

パラメータの生成

温度: 0.65
- 値を高くすると、より創造的で予測不可能な出力が生成され、値を低くすると、出力がより単調になります。
長さのペナルティ: 長いシーケンスにペナルティを与える
- 値が大きいほど、出力が短くなります (カスタムモデルには適していません)。
反復ペナルティ: フレーズの繰り返しに対するペナルティ
- 値を大きくすると重複が減ります。
Top-k サンプリング: 値を低くすると、出力がより可能性の高い単語に制限され、オーディオの生成が高速化されます。
トップサンプリング: 単語選択の累積確率を制御します
- 値を低くすると、出力がより予測可能になり、オーディオ生成が高速化されます。
ナレーターの速度：ナレーターの話す速度を調整します。
テキストの分割: 長いテキストを文に分割して、チャンク内の音声を生成します。
- 非常に長い入力に適しています。
テキスト分割を有効にする: テキスト分割を有効にします。

図 3 オプションの言語

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

1年前

サイズ

4.32 GB

タグ

音声分類

GitHub

microsoft/VibeVoice