Reader-LM : Convertissez Du HTML En MarkDown Rapidement Et Efficacement
1. Introduction au tutoriel
该教程使用的基础算力为 RTX 4090 。
Reader-LM est une série de petits modèles de langage développés par Jina AI en 2024, spécialement conçus pour convertir le contenu HTML brut du Web en un format Markdown clair et ordonné. Ces modèles incluent Reader-LM-0.5B et Reader-LM-1.5B, qui excellent dans la gestion de textes longs et de contenus multilingues, prenant en charge des longueurs de contexte jusqu'à 256 Ko.
Les modèles Reader-LM sont conçus pour répondre au besoin d'extraction de données efficace et économique à partir de contenu Web bruyant. Ils surpassent plusieurs grands modèles de langage tels que GPT-4o et Gemini-1.5-Flash dans les tâches de conversion HTML en Markdown, tout en étant plus petits et plus adaptés à l'exécution dans des environnements à ressources limitées.
Le modèle est formé sur une collection organisée de contenu HTML et de son contenu Markdown correspondant. Ce tutoriel montre comment utiliser reader-lm-1.5b ou reader-lm-0.5b pour convertir du HTML en markdown.
请注意!模型的输入(即提示)是原始 HTML—不需要前缀指令。

2. Étapes de l'opération
1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证,无需打开工作空间)

2. WebUI Demo 详细教程

* 模型输入:一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。
* 模型选择:jina 提供了 2 个参数量不同的模型,分别为 reader-lm-1.5B 和 reader-lm-0.5B,可根据自己的需要进行选择。
* 这里我们选择一个示例点击提交即可看到模型输出结果,一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。

* 生成结果
- Sortie du lecteur LM : le résultat de l’utilisation de la sortie du modèle ;
- Sortie Markdownify : Markdownify est une bibliothèque Python qui peut convertir du contenu HTML au format Markdown. Cette bibliothèque est particulièrement utile lorsque vous devez afficher des données initialement formatées en HTML sur une plateforme prenant en charge Markdown.
- Enregistrez le fichier comme indiqué dans la figure ci-dessous : deux fichiers md sont générés à chaque fois, le nom du fichier est horodatage + méthode de génération, et le répertoire de sauvegarde est : ./HTML-to-Markdown/output_md/「timestamp」_「méthode de génération」.md
- Enregistrez le fichier comme indiqué dans la figure ci-dessous : deux fichiers md sont générés à chaque fois, le nom du fichier est horodatage + méthode de génération, et le répertoire de sauvegarde est : ./HTML-to-Markdown/output_md/「timestamp」_「méthode de génération」.md