MinerU 是一款将 PDF 转化为机器可读格式的工具(如 markdown 、 json),可轻松提取为任何格式。支持 176 种语言的准确识别,进行精准的语言类型鉴定。 它专门设计用于将包含图片、公式、表格、脚注等复杂多模态 PDF 文档转化为清晰、易于分析的 Markdown 格式。此外,MinerU 也支持从包含广告等干扰信息的网页、电子书中快速解析和抽取正式内容,从而有效提高 AI 语料的准备效率。
本教程已经将模型与环境部署完毕,大家可根据教程指引直接使用大模型进行推理对话。具体教程如下:
待资源配置后启动容器,点击 API 地址处的连接进入 Demo 界面
稍等片刻后可以看到模型的界面,此时我们就可以使用模型了。用户可上传需要提取的 pdf 文件(注意不要大于 5 mb),点击 submit 按钮模型便可以开始提取。在 gradio 界面中也提供了一个示例文件 paper.pdf 供用户体验模型。(该文件的提取时间大约在 110s 左右)