HyperAI超神経

Reader-LM: HTML を迅速かつ効率的に MarkDown に変換

1. チュートリアルの概要

该教程使用的基础算力为 RTX 4090 。

Reader-LM は、2024 年に Jina AI によって開発された一連の小規模な言語モデルであり、特に Web 上の生の HTML コンテンツを明確で整った Markdown 形式に変換するように設計されています。これらのモデルには Reader-LM-0.5B および Reader-LM-1.5B が含まれており、長いテキストと多言語コンテンツの処理に優れており、最大 256K バイトのコンテキスト長をサポートします。

Reader-LM モデルは、ノイズの多い Web コンテンツから効率的かつコスト効率よくデータを抽出するニーズに対応するように設計されており、HTML から Markdown Flash への変換タスクにおいて、GPT-4o や Gemini-1.5 などの複数の大規模言語モデルよりも優れたパフォーマンスを発揮します。一方、モデルのサイズは小さくなり、リソースに制約のある環境での実行に適しています。

このモデルは、HTML コンテンツとそれに対応する Markdown コンテンツの厳選されたコレクションでトレーニングされます。このチュートリアルでは、reader-lm-1.5b または Reader-lm-0.5b を使用して HTML 形式をマークダウンに変換する方法を説明します。

请注意!模型的输入(即提示)是原始 HTML—不需要前缀指令。

2. 操作手順

1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证,无需打开工作空间)
2. WebUI Demo 详细教程
* 模型输入:一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。

* 模型选择:jina 提供了 2 个参数量不同的模型,分别为 reader-lm-1.5B 和 reader-lm-0.5B,可根据自己的需要进行选择。

* 这里我们选择一个示例点击提交即可看到模型输出结果,一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。
* 生成结果
  • Reader LM 出力: モデルによって出力された結果を使用します。
  • Markdownify 出力: markdownify は、HTML コンテンツを Markdown 形式に変換する Python ライブラリです。このライブラリは、もともと HTML 形式で存在していたデータを、Markdown をサポートするプラットフォームで表示する必要がある場合に特に役立ちます。
    • 保存されたファイルは以下の通りです。毎回2種類のmdファイルが生成され、ファイル名は➡️timestamp + 生成方法、保存ディレクトリは./HTML-to-Markdown/output_md/"timestamp"_"世代となります。メソッド".md