HyperAI

Reader-LM: تحويل HTML إلى MarkDown بسرعة وكفاءة

1. مقدمة البرنامج التعليمي

该教程使用的基础算力为 RTX 4090 。

Reader-LM عبارة عن سلسلة من نماذج اللغة الصغيرة التي طورتها Jina AI في عام 2024، وهي مصممة خصيصًا لتحويل محتوى HTML الخام على الويب إلى تنسيق Markdown واضح وأنيق. تتضمن هذه النماذج Reader-LM-0.5B وReader-LM-1.5B، والتي تتميز بالقدرة على التعامل مع النصوص الطويلة والمحتوى متعدد اللغات، وتدعم أطوال سياقية تصل إلى 256 كيلو بايت.

تم تصميم نماذج Reader-LM لتلبية الحاجة إلى استخراج البيانات بكفاءة واقتصادية من محتوى الويب المليء بالضوضاء. إنها تتفوق على العديد من نماذج اللغات الكبيرة مثل GPT-4o وGemini-1.5-Flash في مهام تحويل HTML إلى Markdown، بينما تكون أصغر حجمًا وأكثر ملاءمة للتشغيل في البيئات ذات الموارد المحدودة.

يتم تدريب النموذج على مجموعة مختارة من محتوى HTML ومحتوى Markdown المقابل له. يوضح هذا البرنامج التعليمي كيفية استخدام reader-lm-1.5b أو reader-lm-0.5b لتحويل HTML إلى Markdown.

请注意!模型的输入(即提示)是原始 HTML—不需要前缀指令。

2. خطوات التشغيل

1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证,无需打开工作空间)
2. WebUI Demo 详细教程
* 模型输入:一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。

* 模型选择:jina 提供了 2 个参数量不同的模型,分别为 reader-lm-1.5B 和 reader-lm-0.5B,可根据自己的需要进行选择。

* 这里我们选择一个示例点击提交即可看到模型输出结果,一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。
* 生成结果
  • مخرجات القارئ LM: نتيجة استخدام مخرجات النموذج؛
  • مخرجات Markdownify: markdownify هي مكتبة Python يمكنها تحويل محتوى HTML إلى تنسيق Markdown. تُعد هذه المكتبة مفيدة بشكل خاص عندما تحتاج إلى عرض البيانات بتنسيق HTML الأصلي على منصة تدعم Markdown.
    • احفظ الملف كما هو موضح في الشكل أدناه: يتم إنشاء ملفين md في كل مرة، اسم الملف هو timestamp + generation method، ودليل الحفظ هو: ./HTML-to-Markdown/output_md/「timestamp」_「generation method」.md