Reader-LM:快速高效将 HTML 转为 MarkDown
一、教程简介
该教程使用的基础算力为 RTX 4090 。
Reader-LM 是由 Jina AI 于 2024 年开发的一系列小型语言模型,专门用于将网络中的原始 HTML 内容转换为清晰、整洁的 Markdown 格式。这些模型包括 Reader-LM-0.5B 和 Reader-LM-1.5B,它们在处理长文本和多语言内容方面表现出色,支持高达 256K 字节的上下文长度。
Reader-LM 模型旨在解决从嘈杂的网络内容中高效、经济地提取数据的需求,它们在 HTML 到 Markdown 的转换任务中的表现超过了多个大型语言模型,如 GPT-4o 和 Gemini-1.5-Flash,同时模型体积更小,更适合在资源受限的环境中运行。
该模型在精选的 HTML 内容集合及其对应的 Markdown 内容上进行训练。在该教程中演示了如何使用 reader-lm-1.5b 或者 reader-lm-0.5b 将 HTML 格式转换为 markdown 。
请注意!模型的输入(即提示)是原始 HTML—不需要前缀指令。

二、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证,无需打开工作空间)

2. WebUI Demo 详细教程

* 模型输入:一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。
* 模型选择:jina 提供了 2 个参数量不同的模型,分别为 reader-lm-1.5B 和 reader-lm-0.5B,可根据自己的需要进行选择。
* 这里我们选择一个示例点击提交即可看到模型输出结果,一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。

* 生成结果
- Reader LM Output:使用模型输出的结果;
- Markdownify Output:markdownify 是一个 Python 库,它可以将 HTML 内容转换为 Markdown 格式。这个库特别有用,当你需要在支持 Markdown 的平台显示原本以 HTML 格式存在的数据时。
- 保存文件 如下图所示:每次生成两个方式的 md 文件,文件名➡️时间戳+生成方式,保存目录为:./HTML-to-Markdown/output_md/「时间戳」_「生成方式」.md
- 保存文件 如下图所示:每次生成两个方式的 md 文件,文件名➡️时间戳+生成方式,保存目录为:./HTML-to-Markdown/output_md/「时间戳」_「生成方式」.md