Ebook2Audiobook 電子ブックからオーディオブックへ

1. チュートリアルの概要
Ebook2Audiobook は、2024 年にオープンソース化されたツールで、電子ブック (eBook) をオーディオブック (オーディオブック) に変換するように設計されています。このプロジェクトは、高度な Text-to-Speech (TTS) テクノロジーを使用して、電子書籍内のテキスト コンテンツを音声に自動的に変換し、ユーザーが聞くことができるオーディオブックを生成します。 Ebook2Audiobook は、EPUB、PDF、MOBI などのさまざまな電子ブック形式をサポートし、章の構造とメタデータを保存できるため、生成されたオーディオブックのナビゲーションと理解が容易になります。
プロジェクトの特徴:
- 📖 Calibre を使用して電子書籍をテキスト形式に変換します。
- 📚電子書籍を章に分割して音声を整理します。
- 🎙️Coqui XTTSv2 と Fairseq を使用した高品質のテキスト読み上げ。
- 🗣️ オプションの音声クローン作成。独自の音声ファイルを使用します。
- 🌍1107言語をサポート(デフォルトは英語)
新しい v2.0 Web GUI インターフェイスの効果

2. 操作手順
1. コンテナを起動します
次に、API アドレスをクリックして Web インターフェイスに入ります。

2. プロセスのデモンストレーション
ご注意ください:
- このプロジェクトには「モデル読み込みプロセス」があり、これには約 3 ~ 4 分かかります。
- プログレスバーが生成された後、オンラインディスプレイオーディオが表示できない場合は、Web ページを更新するか、ローカルにダウンロードして表示してください。
- txt ドキュメントを使用する場合、最初の行のみが読み取られます。
- 電子書籍の言語は選択した言語と一致している必要があり、そうでない場合は「人間以外の言語」が生成されることに注意してください。
- このプロジェクトでは、Fine Tuned Models は標準モデルのみをキャッシュします。
必須:
- 電子書籍ドキュメント
- 言語を選択してください

図1 主なプロセス

図 2 パラメータパラメータの生成
パラメータの生成
- 温度: 0.65
- 値を高くすると、より創造的で予測不可能な出力が生成され、値を低くすると、出力がより単調になります。
- 長さのペナルティ: 長いシーケンスにペナルティを与える
- 値が大きいほど、出力が短くなります (カスタム モデルには適していません)。
- 反復ペナルティ: フレーズの繰り返しに対するペナルティ
- 値を大きくすると重複が減ります。
- Top-k サンプリング: 値を低くすると、出力がより可能性の高い単語に制限され、オーディオの生成が高速化されます。
- トップサンプリング: 単語選択の累積確率を制御します
- 値を低くすると、出力がより予測可能になり、オーディオ生成が高速化されます。
- ナレーターの速度:ナレーターの話す速度を調整します。
- テキストの分割: 長いテキストを文に分割して、チャンク内の音声を生成します。
- 非常に長い入力に適しています。
- テキスト分割を有効にする: テキスト分割を有効にします。

図 3 オプションの言語