HyperAI超神経

Ebook2Audiobook 電子ブックからオーディオブックへ

1. チュートリアルの概要

Ebook2Audiobook は、2024 年にオープンソース化されたツールで、電子ブック (eBook) をオーディオブック (オーディオブック) に変換するように設計されています。このプロジェクトは、高度な Text-to-Speech (TTS) テクノロジーを使用して、電子書籍内のテキスト コンテンツを音声に自動的に変換し、ユーザーが聞くことができるオーディオブックを生成します。 Ebook2Audiobook は、EPUB、PDF、MOBI などのさまざまな電子ブック形式をサポートし、章の構造とメタデータを保存できるため、生成されたオーディオブックのナビゲーションと理解が容易になります。

プロジェクトの特徴:

  • 📖 Calibre を使用して電子書籍をテキスト形式に変換します。
  • 📚電子書籍を章に分割して音声を整理します。
  • 🎙️Coqui XTTSv2 と Fairseq を使用した高品質のテキスト読み上げ。
  • 🗣️ オプションの音声クローン作成。独自の音声ファイルを使用します。
  • 🌍1107言語をサポート(デフォルトは英語)

新しい v2.0 Web GUI インターフェイスの効果

デモウェブ_gui

2. 操作手順

1. コンテナを起動します

次に、API アドレスをクリックして Web インターフェイスに入ります。

2. プロセスのデモンストレーション

ご注意ください:

  • このプロジェクトには「モデル読み込みプロセス」があり、これには約 3 ~ 4 分かかります。
  • プログレスバーが生成された後、オンラインディスプレイオーディオが表示できない場合は、Web ページを更新するか、ローカルにダウンロードして表示してください。
  • txt ドキュメントを使用する場合、最初の行のみが読み取られます。
  • 電子書籍の言語は選択した言語と一致している必要があり、そうでない場合は「人間以外の言語」が生成されることに注意してください。
  • このプロジェクトでは、Fine Tuned Models は標準モデルのみをキャッシュします。

必須:

  • 電子書籍ドキュメント
  • 言語を選択してください

図1 主なプロセス

図 2 パラメータパラメータの生成

パラメータの生成

  • 温度: 0.65
    • 値を高くすると、より創造的で予測不可能な出力が生成され、値を低くすると、出力がより単調になります。
  • 長さのペナルティ: 長いシーケンスにペナルティを与える
    • 値が大きいほど、出力が短くなります (カスタム モデルには適していません)。
  • 反復ペナルティ: フレーズの繰り返しに対するペナルティ
    • 値を大きくすると重複が減ります。
  • Top-k サンプリング: 値を低くすると、出力がより可能性の高い単語に制限され、オーディオの生成が高速化されます。
  • トップサンプリング: 単語選択の累積確率を制御します
    • 値を低くすると、出力がより予測可能になり、オーディオ生成が高速化されます。
  • ナレーターの速度:ナレーターの話す速度を調整します。
  • テキストの分割: 長いテキストを文に分割して、チャンク内の音声を生成します。
    • 非常に長い入力に適しています。
  • テキスト分割を有効にする: テキスト分割を有効にします。

図 3 オプションの言語