HyperAIHyperAI

Command Palette

Search for a command to run...

Reader-LM: HTML Schnell Und Effizient in MarkDown Konvertieren

Date

vor einem Jahr

Size

167.91 MB

1. Einführung in das Tutorial

该教程使用的基础算力为 RTX 4090 。

Reader-LM ist eine Reihe kleiner Sprachmodelle, die 2024 von Jina AI entwickelt wurden und speziell dafür konzipiert sind, rohen HTML-Inhalt im Web in ein klares und übersichtliches Markdown-Format zu konvertieren. Zu diesen Modellen gehören Reader-LM-0.5B und Reader-LM-1.5B, die sich durch die Verarbeitung langer Texte und mehrsprachiger Inhalte auszeichnen und Kontextlängen von bis zu 256 KB unterstützen.

Die Reader-LM-Modelle sind darauf ausgelegt, den Bedarf an effizienter und wirtschaftlicher Datenextraktion aus verrauschten Webinhalten zu decken. Sie übertreffen mehrere große Sprachmodelle wie GPT-4o und Gemini-1.5-Flash bei der Konvertierung von HTML in Markdown, sind dabei aber kleiner und besser für die Ausführung in Umgebungen mit eingeschränkten Ressourcen geeignet.

Das Modell wird anhand einer kuratierten Sammlung von HTML-Inhalten und den entsprechenden Markdown-Inhalten trainiert. Dieses Tutorial zeigt, wie Sie mit reader-lm-1.5b oder reader-lm-0.5b HTML in Markdown konvertieren.

请注意!模型的输入(即提示)是原始 HTML—不需要前缀指令。

2. Bedienungsschritte

1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证,无需打开工作空间)
2. WebUI Demo 详细教程
* 模型输入:一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。

* 模型选择:jina 提供了 2 个参数量不同的模型,分别为 reader-lm-1.5B 和 reader-lm-0.5B,可根据自己的需要进行选择。

* 这里我们选择一个示例点击提交即可看到模型输出结果,一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。
* 生成结果
  • Reader LM-Ausgabe: das Ergebnis der Verwendung der Modellausgabe;
  • Markdownify-Ausgabe: Markdownify ist eine Python-Bibliothek, die HTML-Inhalte in das Markdown-Format konvertieren kann. Diese Bibliothek ist besonders nützlich, wenn Sie ursprünglich als HTML formatierte Daten auf einer Plattform anzeigen müssen, die Markdown unterstützt.
    • Speichern Sie die Datei wie in der folgenden Abbildung gezeigt: Jedes Mal werden zwei MD-Dateien generiert, der Dateiname lautet „Zeitstempel + Generierungsmethode“ und das Speicherverzeichnis lautet: ./HTML-to-Markdown/output_md/「timestamp」_「generation method」.md 

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Reader-LM: HTML Schnell Und Effizient in MarkDown Konvertieren | Notebooks | HyperAI