日期

1 年前

大小

167.91 MB

一、教程简介

该教程使用的基础算力为 RTX 4090 。

Reader-LM 是由 Jina AI 于 2024 年开发的一系列小型语言模型，专门用于将网络中的原始 HTML 内容转换为清晰、整洁的 Markdown 格式。这些模型包括 Reader-LM-0.5B 和 Reader-LM-1.5B，它们在处理长文本和多语言内容方面表现出色，支持高达 256K 字节的上下文长度。

Reader-LM 模型旨在解决从嘈杂的网络内容中高效、经济地提取数据的需求，它们在 HTML 到 Markdown 的转换任务中的表现超过了多个大型语言模型，如 GPT-4o 和 Gemini-1.5-Flash，同时模型体积更小，更适合在资源受限的环境中运行。

该模型在精选的 HTML 内容集合及其对应的 Markdown 内容上进行训练。在该教程中演示了如何使用 reader-lm-1.5b 或者 reader-lm-0.5b 将 HTML 格式转换为 markdown 。

请注意！模型的输入（即提示）是原始 HTML—不需要前缀指令。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证，无需打开工作空间)

2. WebUI Demo 详细教程

* 模型输入：一定要注意模型的输入（即提示）是原始 HTML—不需要前缀指令。

* 模型选择：jina 提供了 2 个参数量不同的模型，分别为 reader-lm-1.5B 和 reader-lm-0.5B，可根据自己的需要进行选择。

* 这里我们选择一个示例点击提交即可看到模型输出结果，一定要注意模型的输入（即提示）是原始 HTML—不需要前缀指令。

* 生成结果

Reader LM Output：使用模型输出的结果；
Markdownify Output：markdownify 是一个 Python 库，它可以将 HTML 内容转换为 Markdown 格式。这个库特别有用，当你需要在支持 Markdown 的平台显示原本以 HTML 格式存在的数据时。
- 保存文件如下图所示：每次生成两个方式的 md 文件，文件名➡️时间戳+生成方式，保存目录为：./HTML-to-Markdown/output_md/「时间戳」_「生成方式」.md

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

1 年前

大小

167.91 MB

一、教程简介

该教程使用的基础算力为 RTX 4090 。

该模型在精选的 HTML 内容集合及其对应的 Markdown 内容上进行训练。在该教程中演示了如何使用 reader-lm-1.5b 或者 reader-lm-0.5b 将 HTML 格式转换为 markdown 。

请注意！模型的输入（即提示）是原始 HTML—不需要前缀指令。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证，无需打开工作空间)

2. WebUI Demo 详细教程

* 模型输入：一定要注意模型的输入（即提示）是原始 HTML—不需要前缀指令。

* 模型选择：jina 提供了 2 个参数量不同的模型，分别为 reader-lm-1.5B 和 reader-lm-0.5B，可根据自己的需要进行选择。

* 这里我们选择一个示例点击提交即可看到模型输出结果，一定要注意模型的输入（即提示）是原始 HTML—不需要前缀指令。

* 生成结果

Reader LM Output：使用模型输出的结果；
Markdownify Output：markdownify 是一个 Python 库，它可以将 HTML 内容转换为 Markdown 格式。这个库特别有用，当你需要在支持 Markdown 的平台显示原本以 HTML 格式存在的数据时。
- 保存文件如下图所示：每次生成两个方式的 md 文件，文件名➡️时间戳+生成方式，保存目录为：./HTML-to-Markdown/output_md/「时间戳」_「生成方式」.md

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

1 年前

大小

167.91 MB

一、教程简介

该教程使用的基础算力为 RTX 4090 。

该模型在精选的 HTML 内容集合及其对应的 Markdown 内容上进行训练。在该教程中演示了如何使用 reader-lm-1.5b 或者 reader-lm-0.5b 将 HTML 格式转换为 markdown 。

请注意！模型的输入（即提示）是原始 HTML—不需要前缀指令。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证，无需打开工作空间)

2. WebUI Demo 详细教程

* 模型输入：一定要注意模型的输入（即提示）是原始 HTML—不需要前缀指令。

* 模型选择：jina 提供了 2 个参数量不同的模型，分别为 reader-lm-1.5B 和 reader-lm-0.5B，可根据自己的需要进行选择。

* 这里我们选择一个示例点击提交即可看到模型输出结果，一定要注意模型的输入（即提示）是原始 HTML—不需要前缀指令。

* 生成结果

Reader LM Output：使用模型输出的结果；
Markdownify Output：markdownify 是一个 Python 库，它可以将 HTML 内容转换为 Markdown 格式。这个库特别有用，当你需要在支持 Markdown 的平台显示原本以 HTML 格式存在的数据时。
- 保存文件如下图所示：每次生成两个方式的 md 文件，文件名➡️时间戳+生成方式，保存目录为：./HTML-to-Markdown/output_md/「时间戳」_「生成方式」.md

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Triton 编译器教程

15 天前

Docling：文档解析神器

2 个月前

Chandra：高精度文档 OCR

2 个月前

DiffVox：声音区分效果模型

3 个月前

MarkItDown 微软开源的文档转换工具

2 个月前

OCRFlux-3B：智能文本识别工具包

3 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

HunyuanWorld-1.0：3D 世界生成模型

9 天前

HunyuanWorld-Mirror：3D 世界生成模型

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Reader-LM：快速高效将 HTML 转为 MarkDown

一、教程简介

二、运行步骤

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Reader-LM：快速高效将 HTML 转为 MarkDown

一、教程简介

二、运行步骤

相关教程

Triton 编译器教程

Docling：文档解析神器

Chandra：高精度文档 OCR

DiffVox：声音区分效果模型

MarkItDown 微软开源的文档转换工具

OCRFlux-3B：智能文本识别工具包

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

HunyuanWorld-1.0：3D 世界生成模型

HunyuanWorld-Mirror：3D 世界生成模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Reader-LM：快速高效将 HTML 转为 MarkDown

一、教程简介

二、运行步骤

相关教程

Triton 编译器教程

Docling：文档解析神器

Chandra：高精度文档 OCR

DiffVox：声音区分效果模型

MarkItDown 微软开源的文档转换工具

OCRFlux-3B：智能文本识别工具包

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

HunyuanWorld-1.0：3D 世界生成模型

HunyuanWorld-Mirror：3D 世界生成模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

Triton 编译器教程

Docling：文档解析神器

Chandra：高精度文档 OCR

DiffVox：声音区分效果模型

MarkItDown 微软开源的文档转换工具

OCRFlux-3B：智能文本识别工具包

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

HunyuanWorld-1.0：3D 世界生成模型

HunyuanWorld-Mirror：3D 世界生成模型

相关教程

Triton 编译器教程

Docling：文档解析神器

Chandra：高精度文档 OCR

DiffVox：声音区分效果模型

MarkItDown 微软开源的文档转换工具

OCRFlux-3B：智能文本识别工具包

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

HunyuanWorld-1.0：3D 世界生成模型

HunyuanWorld-Mirror：3D 世界生成模型