날짜

8달 전

태그

OCR

RTX 5090

논문 URL

2510.14528

라이선스

Apache 2.0

GitHub

PaddlePaddle/PaddleOCR85.8k

1. 튜토리얼 소개

PaddleOCR-VL은 문서 구문 분석 작업을 위해 특별히 설계된 최첨단(SOTA) 고효율 리소스 모델입니다. 핵심 구성 요소는 NaViT 스타일의 동적 해상도 비주얼 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합한 강력한 비주얼 언어 모델(VLM)인 PaddleOCR-VL-0.9B로, 정확한 요소 인식을 가능하게 합니다. 이 혁신적인 모델은 109개 언어를 효율적으로 지원하며, 텍스트, 표, 수식, 차트와 같은 복잡한 요소를 매우 낮은 리소스 소비로 인식하는 데 탁월한 성능을 발휘합니다. 널리 사용되는 공개 및 내부 벤치마크에 대한 종합적인 평가를 통해 PaddleOCR-VL은 페이지 수준 문서 구문 분석 및 요소 수준 인식 작업 모두에서 SOTA 성능을 달성했습니다. 이 모델은 기존 솔루션을 크게 능가하고, 최상위급 비주얼 언어 모델과도 강력한 경쟁력을 보이며, 빠른 추론 속도를 제공합니다. 이러한 장점 덕분에 실제 환경에 매우 적합합니다. 관련 연구 논문을 참조하십시오. PaddleOCR-VL: 0.9B 초소형 비전 언어 모델을 통한 다국어 문서 구문 분석 향상 .

이 튜토리얼에서는 컴퓨팅 리소스로 단일 RTX 5090 그래픽 카드를 사용합니다.

2. 효과 예시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

사용 방법

인용 정보

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

컴퓨터 비전 생성형 AI

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 노트북 실행하기 Discord에서 논의하기

날짜

8달 전

태그

OCR

RTX 5090

논문 URL

2510.14528

라이선스

Apache 2.0

GitHub

PaddlePaddle/PaddleOCR85.8k

1. 튜토리얼 소개

이 튜토리얼에서는 컴퓨팅 리소스로 단일 RTX 5090 그래픽 카드를 사용합니다.

2. 효과 예시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

사용 방법

인용 정보

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

Notebook 개요

수준

입문

주제

컴퓨터 비전 생성형 AI

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 노트북 실행하기 Discord에서 논의하기

날짜

8달 전

태그

OCR

RTX 5090

논문 URL

2510.14528

라이선스

Apache 2.0

GitHub

PaddlePaddle/PaddleOCR85.8k

1. 튜토리얼 소개

이 튜토리얼에서는 컴퓨팅 리소스로 단일 RTX 5090 그래픽 카드를 사용합니다.

2. 효과 예시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

사용 방법

인용 정보

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

Notebook 개요

수준

입문

주제

컴퓨터 비전 생성형 AI

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

PaddleOCR-VL: 다중 모드 문서 파싱

1. 튜토리얼 소개

2. 효과 예시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

PaddleOCR-VL: 다중 모드 문서 파싱

1. 튜토리얼 소개

2. 효과 예시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

PaddleOCR-VL: 다중 모드 문서 파싱

1. 튜토리얼 소개

2. 효과 예시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters