HyperAI

Reader-LM: HTML Schnell Und Effizient in MarkDown Konvertieren

1. Einführung in das Tutorial

该教程使用的基础算力为 RTX 4090 。

Reader-LM ist eine Reihe kleiner Sprachmodelle, die 2024 von Jina AI entwickelt wurden und speziell dafür konzipiert sind, rohen HTML-Inhalt im Web in ein klares und übersichtliches Markdown-Format zu konvertieren. Zu diesen Modellen gehören Reader-LM-0.5B und Reader-LM-1.5B, die sich durch die Verarbeitung langer Texte und mehrsprachiger Inhalte auszeichnen und Kontextlängen von bis zu 256 KB unterstützen.

Die Reader-LM-Modelle sind darauf ausgelegt, den Bedarf an effizienter und wirtschaftlicher Datenextraktion aus verrauschten Webinhalten zu decken. Sie übertreffen mehrere große Sprachmodelle wie GPT-4o und Gemini-1.5-Flash bei der Konvertierung von HTML in Markdown, sind dabei aber kleiner und besser für die Ausführung in Umgebungen mit eingeschränkten Ressourcen geeignet.

Das Modell wird anhand einer kuratierten Sammlung von HTML-Inhalten und den entsprechenden Markdown-Inhalten trainiert. Dieses Tutorial zeigt, wie Sie mit reader-lm-1.5b oder reader-lm-0.5b HTML in Markdown konvertieren.

请注意!模型的输入(即提示)是原始 HTML—不需要前缀指令。

2. Bedienungsschritte

1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证,无需打开工作空间)
2. WebUI Demo 详细教程
* 模型输入:一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。

* 模型选择:jina 提供了 2 个参数量不同的模型,分别为 reader-lm-1.5B 和 reader-lm-0.5B,可根据自己的需要进行选择。

* 这里我们选择一个示例点击提交即可看到模型输出结果,一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。
* 生成结果
  • Reader LM-Ausgabe: das Ergebnis der Verwendung der Modellausgabe;
  • Markdownify-Ausgabe: Markdownify ist eine Python-Bibliothek, die HTML-Inhalte in das Markdown-Format konvertieren kann. Diese Bibliothek ist besonders nützlich, wenn Sie ursprünglich als HTML formatierte Daten auf einer Plattform anzeigen müssen, die Markdown unterstützt.
    • Speichern Sie die Datei wie in der folgenden Abbildung gezeigt: Jedes Mal werden zwei MD-Dateien generiert, der Dateiname lautet „Zeitstempel + Generierungsmethode“ und das Speicherverzeichnis lautet: ./HTML-to-Markdown/output_md/「timestamp」_「generation method」.md