HyperAIHyperAI

Command Palette

Search for a command to run...

PaddleOCR-VL: 다중 모드 문서 파싱

날짜

6달 전

태그

논문 URL

2510.14528

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

저장소

PaddleOCR-VL은 문서 구문 분석 작업을 위해 특별히 설계된 최첨단(SOTA) 고효율 리소스 모델입니다. 핵심 구성 요소는 NaViT 스타일의 동적 해상도 비주얼 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합한 강력한 비주얼 언어 모델(VLM)인 PaddleOCR-VL-0.9B로, 정확한 요소 인식을 가능하게 합니다. 이 혁신적인 모델은 109개 언어를 효율적으로 지원하며, 텍스트, 표, 수식, 차트와 같은 복잡한 요소를 매우 낮은 리소스 소비로 인식하는 데 탁월한 성능을 발휘합니다. 널리 사용되는 공개 및 내부 벤치마크에 대한 종합적인 평가를 통해 PaddleOCR-VL은 페이지 수준 문서 구문 분석 및 요소 수준 인식 작업 모두에서 SOTA 성능을 달성했습니다. 이 모델은 기존 솔루션을 크게 능가하고, 최상위급 비주얼 언어 모델과도 강력한 경쟁력을 보이며, 빠른 추론 속도를 제공합니다. 이러한 장점 덕분에 실제 환경에 매우 적합합니다. 관련 연구 논문을 참조하십시오. PaddleOCR-VL: 0.9B 초소형 비전 언어 모델을 통한 다국어 문서 구문 분석 향상 .

이 튜토리얼에서는 컴퓨팅 리소스로 단일 RTX 5090 그래픽 카드를 사용합니다.

2. 효과 예시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

사용 방법 

 

인용 정보

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp