Reader-LM: HTML을 MarkDown으로 빠르고 효율적으로 변환
1. 튜토리얼 소개
该教程使用的基础算力为 RTX 4090 。
Reader-LM은 Jina AI가 2024년에 개발한 일련의 소규모 언어 모델로, 웹의 원시 HTML 콘텐츠를 명확하고 깔끔한 Markdown 형식으로 변환하도록 특별히 설계되었습니다. 이러한 모델에는 긴 텍스트와 다국어 콘텐츠를 처리하는 데 탁월하고 최대 256K 바이트의 컨텍스트 길이를 지원하는 Reader-LM-0.5B와 Reader-LM-1.5B가 포함됩니다.
Reader-LM 모델은 노이즈가 많은 웹 콘텐츠에서 효율적이고 경제적으로 데이터를 추출해야 하는 필요성을 해결하기 위해 설계되었습니다. 이 모델들은 HTML을 Markdown으로 변환하는 작업에서 GPT-4o와 Gemini-1.5-Flash와 같은 여러 대형 언어 모델보다 성능이 뛰어나며, 크기가 더 작고 리소스가 제한된 환경에서 실행하는 데 더 적합합니다.
이 모델은 큐레이팅된 HTML 콘텐츠와 해당 마크다운 콘텐츠 컬렉션을 기반으로 학습됩니다. 이 튜토리얼에서는 reader-lm-1.5b 또는 reader-lm-0.5b를 사용하여 HTML을 마크다운으로 변환하는 방법을 보여줍니다.
请注意!模型的输入(即提示)是原始 HTML—不需要前缀指令。

2. 작업 단계
1. 启动容器后点击 API 地址即可进入 Web 界面 (需要完成实名认证,无需打开工作空间)

2. WebUI Demo 详细教程

* 模型输入:一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。
* 模型选择:jina 提供了 2 个参数量不同的模型,分别为 reader-lm-1.5B 和 reader-lm-0.5B,可根据自己的需要进行选择。
* 这里我们选择一个示例点击提交即可看到模型输出结果,一定要注意模型的输入(即提示)是原始 HTML—不需要前缀指令。

* 生成结果
- 독자 LM 출력: 모델 출력을 사용한 결과입니다.
- Markdownify 출력: markdownify는 HTML 콘텐츠를 Markdown 형식으로 변환할 수 있는 Python 라이브러리입니다. 이 라이브러리는 Markdown을 지원하는 플랫폼에서 원래 HTML 형식으로 된 데이터를 표시해야 할 때 특히 유용합니다.
- 아래 그림과 같이 파일을 저장합니다. 매번 두 개의 md 파일이 생성되며, 파일 이름은 타임스탬프 + 생성 방법이며 저장 디렉토리는 ./HTML-to-Markdown/output_md/「타임스탬프」_「생성 방법」.md입니다.
- 아래 그림과 같이 파일을 저장합니다. 매번 두 개의 md 파일이 생성되며, 파일 이름은 타임스탬프 + 생성 방법이며 저장 디렉토리는 ./HTML-to-Markdown/output_md/「타임스탬프」_「생성 방법」.md입니다.