Command Palette

Search for a command to run...

MinerU2.5-2509-1.2B: 문서 구문 분석 데모

1. 튜토리얼 소개

GitHub 스타

MinerU2.5-2509-1.2B는 OpenDataLab과 상하이 AI 랩이 2025년 9월에 출시한 시각 언어 모델입니다. 고정밀 및 고효율 문서 파싱 작업을 위해 설계되었습니다. MinerU 시리즈의 최신 버전으로, PDF와 같은 복잡한 형식의 문서를 마크다운, JSON 등의 구조화된 기계 판독 가능 데이터로 변환하는 데 중점을 두고 있습니다. 관련 논문 결과는 다음과 같습니다.MinerU2.5: 효율적인 고해상도 문서 분석을 위한 분리된 비전-언어 모델".

이 튜토리얼에서는 단일 RTX 4090 카드에 대한 리소스를 사용합니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

매개변수 설명

  • 수식 인식 활성화: 수식 인식 활성화 여부입니다. 활성화하면 시스템이 문서의 수학 수식을 인식하여 LaTeX 형식으로 변환합니다.
  • 표 인식 활성화: 표 인식 기능 활성화 여부입니다. 활성화하면 시스템이 문서의 표를 인식하여 HTML 형식으로 변환합니다.
  • 언어: 문서의 언어를 지정하는 데 사용됩니다. OCR의 정확도를 높일 수 있습니다.
  • OCR 활성화 강제: OCR 기능을 강제로 활성화합니다.

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@misc{niu2025mineru25decoupledvisionlanguagemodel,
      title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, 
      author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others},
      year={2025},
      eprint={2509.22186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.22186}, 
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MinerU2.5-2509-1.2B: 문서 구문 분석 데모 | 튜토리얼 | HyperAI초신경