一、教程简介

Ebook2Audiobook 是一款于 2024 年开源的工具，旨在将电子书 (eBooks) 转换为有声书 (audiobooks) 。该项目利用先进的文本到语音 (Text-to-Speech, TTS) 技术，将电子书中的文本内容自动转换为语音，生成可供用户收听的有声书。 Ebook2Audiobook 支持多种电子书格式，如 EPUB 、 PDF 、 MOBI 等，并能够保留章节结构和元数据，使生成的有声书更加易于导航和理解。

项目特点：

📖 使用 Calibre 将电子书转换为文本格式。
📚将 eBooks 分割为章节，以组织音频。
🎙️使用 Coqui XTTSv2 和 Fairseq 的高质量文本转语音。
🗣️可选的语音克隆，使用你自己的语音文件。
🌍支持 1107 种语言（默认为英语）

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

后点击 API 地址即可进入 Web 界面

2. 流程演示

请注意：

该项目存在「模型加载过程」，大约需要 3-4 分钟；
进度条生成完成后，如在线显示音频无法显示，请刷新网页，也可下载到本地进行查看；
使用 txt 文档时，只会读取第一行；
一定要注意电子书的语言必须要和所选语言一致，不然会生成一段「非人类语言」；
本项目中 Fine Tuned Models 只缓存了 std 模型。

必选：

电子书文档
选择语言

图 1 主要流程

图 2 生成参数参数

生成参数

Temperature: 0.65
- 较高值生成更具创意和不可预测的输出，较低值使输出更单调。
Length Penalty: 惩罚较长序列
- 较高值生成较短的输出（不适用于自定义模型）。
Repetition Penalty: 惩罚重复短语
- 较高值减少重复。
Top-k Sampling: 较低值限制输出为更可能的单词，加快音频生成速度。
Top-p Sampling: 控制单词选择的累积概率
- 较低值使输出更可预测，加快音频生成速度。
Narrator Speed: 调整叙述者的语速。
Text Splitting: 将长文本拆分为句子以分块生成音频。
- 适用于非常长的输入。
Enable Text Splitting: 启用文本拆分。

图 3 可选语言

一、教程简介

项目特点：

📖 使用 Calibre 将电子书转换为文本格式。
📚将 eBooks 分割为章节，以组织音频。
🎙️使用 Coqui XTTSv2 和 Fairseq 的高质量文本转语音。
🗣️可选的语音克隆，使用你自己的语音文件。
🌍支持 1107 种语言（默认为英语）

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

后点击 API 地址即可进入 Web 界面

2. 流程演示

请注意：

该项目存在「模型加载过程」，大约需要 3-4 分钟；
进度条生成完成后，如在线显示音频无法显示，请刷新网页，也可下载到本地进行查看；
使用 txt 文档时，只会读取第一行；
一定要注意电子书的语言必须要和所选语言一致，不然会生成一段「非人类语言」；
本项目中 Fine Tuned Models 只缓存了 std 模型。

必选：

电子书文档
选择语言

图 1 主要流程

图 2 生成参数参数

生成参数

Temperature: 0.65
- 较高值生成更具创意和不可预测的输出，较低值使输出更单调。
Length Penalty: 惩罚较长序列
- 较高值生成较短的输出（不适用于自定义模型）。
Repetition Penalty: 惩罚重复短语
- 较高值减少重复。
Top-k Sampling: 较低值限制输出为更可能的单词，加快音频生成速度。
Top-p Sampling: 控制单词选择的累积概率
- 较低值使输出更可预测，加快音频生成速度。
Narrator Speed: 调整叙述者的语速。
Text Splitting: 将长文本拆分为句子以分块生成音频。
- 适用于非常长的输入。
Enable Text Splitting: 启用文本拆分。

图 3 可选语言

一、教程简介

项目特点：

📖 使用 Calibre 将电子书转换为文本格式。
📚将 eBooks 分割为章节，以组织音频。
🎙️使用 Coqui XTTSv2 和 Fairseq 的高质量文本转语音。
🗣️可选的语音克隆，使用你自己的语音文件。
🌍支持 1107 种语言（默认为英语）

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

后点击 API 地址即可进入 Web 界面

2. 流程演示

请注意：

该项目存在「模型加载过程」，大约需要 3-4 分钟；
进度条生成完成后，如在线显示音频无法显示，请刷新网页，也可下载到本地进行查看；
使用 txt 文档时，只会读取第一行；
一定要注意电子书的语言必须要和所选语言一致，不然会生成一段「非人类语言」；
本项目中 Fine Tuned Models 只缓存了 std 模型。

必选：

电子书文档
选择语言

图 1 主要流程

图 2 生成参数参数

生成参数

Temperature: 0.65
- 较高值生成更具创意和不可预测的输出，较低值使输出更单调。
Length Penalty: 惩罚较长序列
- 较高值生成较短的输出（不适用于自定义模型）。
Repetition Penalty: 惩罚重复短语
- 较高值减少重复。
Top-k Sampling: 较低值限制输出为更可能的单词，加快音频生成速度。
Top-p Sampling: 控制单词选择的累积概率
- 较低值使输出更可预测，加快音频生成速度。
Narrator Speed: 调整叙述者的语速。
Text Splitting: 将长文本拆分为句子以分块生成音频。
- 适用于非常长的输入。
Enable Text Splitting: 启用文本拆分。

图 3 可选语言

GPU 算力空投

一、教程简介

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

2. 流程演示

用 AI 构建 AI

HyperAI Newsletters

GPU 算力空投

一、教程简介

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

2. 流程演示

用 AI 构建 AI

HyperAI Newsletters

GPU 算力空投

一、教程简介

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

2. 流程演示

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Ebook2Audiobook 电子书转有声读物

GPU 算力空投

一、教程简介

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

2. 流程演示

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Ebook2Audiobook 电子书转有声读物

GPU 算力空投

一、教程简介

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

2. 流程演示

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Ebook2Audiobook 电子书转有声读物

GPU 算力空投

一、教程简介

新 v2.0 Web GUI 界面效果

二、运行步骤

1. 启动容器

2. 流程演示

用 AI 构建 AI

HyperAI Newsletters