Google, IBM, Tencent, Xiaohongshu, Tsinghua University가 오픈 소스로 공개한 6가지 주요 OCR 모델을 요약한 것으로, 인식 정확도와 효율성을 높여주는 가벼운 아키텍처를 갖추고 있습니다.

特色图像

인공지능의 많은 응용 분야 중에서 OCR(광학 문자 인식)은 의심할 여지 없이 가장 성숙하고 실용적인 기술 중 하나입니다.OCR의 핵심 목표는 이미지, 스캔한 문서, 거리 풍경, 청구서, 심지어 손으로 쓴 텍스트에 있는 문자를 편집 및 검색이 가능한 디지털 텍스트로 자동 변환하는 것입니다.초기 OCR은 규칙과 템플릿에 크게 의존했고, 기능이 제한적이었으며, 인쇄된 문자만 인식할 수 있는 경우가 많았습니다. 그러나 딥러닝, 특히 합성곱 신경망(CNN)과 시퀀스 모델링 기법의 도입으로 OCR의 인식 정확도와 적용 범위는 질적으로 비약적으로 발전했습니다.

오늘날 OCR은 금융 청구서 자동 처리, 신분증 검토, 차량 번호판 인식, 전자책 디지털화, 지능형 번역, 의료 문서 입력 등 다양한 시나리오에서 널리 사용되고 있습니다.연구와 산업계에서도 일련의 대표적인 모델과 프레임워크가 만들어졌습니다.예를 들어, CRNN(합성곱 순환 신경망)은 종단간 텍스트 인식의 고전적 패러다임의 토대를 마련했으며, TPS-ResNet-BiLSTM-Attention과 같은 구조는 복잡한 장면에서의 텍스트 인식 개발을 촉진했습니다. 구글이 출시한 혁신적인 기술 모델인 InkSight부터 최근 출시된 경량 모델인 POINTS-Reader와 Granite-docling까지,OCR 기술은 가볍고, 언어 간, 다중 모드 인식 작업에서 큰 잠재력을 보여주었습니다.

현재 HyperAI 공식 웹사이트의 "튜토리얼" 섹션에서 여러 개의 오픈소스 OCR 모델 튜토리얼을 공개했습니다. 효율적인 이미지 및 텍스트 정보 추출, 장면 인식, 그리고 다국어 및 다중 형식 매칭을 위한 OCR 기술의 강력한 기능을 경험해 보시려면 hyper.ai 튜토리얼 섹션을 방문하여 원클릭 시작 튜토리얼을 살펴보세요!

1. 포인트-리더:엔드투엔드 증류가 없는 경량 모델

* 온라인 실행:https://go.hyper.ai/amhh4

텐센트, 상하이 교통대학교, 칭화대학교가 공동 출시한 이 모델은 문서 이미지-텍스트 변환을 위해 특별히 설계된 경량 비전 언어 모델(VLM)입니다. 2단계 자기 진화 프레임워크를 사용하여 표, 수식, 다중 열 레이아웃을 포함한 복잡한 중국어 및 영어 문서에 대한 고정밀 종단 간 인식을 달성하는 동시에 간결한 구조를 유지합니다.

2. Granite-docling-258M: 가벼운 멀티모달 문서 처리 모델

* 온라인 실행:https://go.hyper.ai/BBXlC

* 단계별 튜토리얼:차세대 OCR을 재정의합니다. IBM의 새로운 오픈 소스 Granite-docling-258M은 "구조 + 내용"에 대한 종단 간 통합 이해를 가능하게 합니다.

IBM이 2025년 9월에 출시한 이 경량 시각 언어 모델은 효율적인 문서 변환을 위해 설계되었습니다. 258M 매개변수만 포함하는 이 모델은 뛰어난 성능과 비용 효율성을 제공하며, 아랍어, 중국어, 일본어 등 여러 언어를 지원합니다. 레이아웃, 표, 수식 및 기타 요소를 그대로 유지하면서 문서를 기계가 읽을 수 있는 형식으로 변환합니다. DocTags 형식은 문서 구조를 정확하게 설명하여 정보 손실을 방지합니다.

3. dots.ocr: 다국어 문서 구문 분석 모델

* 온라인 실행:https://go.hyper.ai/o0Bm0

* 단계별 튜토리얼:온라인 튜토리얼 | dots.ocr은 구조화된 문서에 대한 의존성을 깨고 17억 개의 매개변수를 기반으로 수백 개 언어로 최첨단 OCR 성능을 구현합니다.

샤오홍슈(Xiaohongshu)의 hi 랩에서 2025년 8월에 발표한 이 모델은 다국어 문서 레이아웃 파싱 모델입니다. 17억 개의 매개변수를 가진 VLM(가상 공간 선형 모델)을 기반으로 레이아웃 감지와 콘텐츠 인식을 통합하여 정확한 읽기 순서를 유지합니다. 작은 크기에도 불구하고 최첨단 성능을 구현하여 OmniDocBench와 같은 벤치마크에서 탁월한 결과를 달성했습니다. 수식 인식 성능은 Doubao-1.5 및 Gemini2.5-Pro에 필적하며, 소수 언어 파싱에서 상당한 이점을 보여줍니다. 이 모델은 간단하고 효율적인 아키텍처를 자랑하며, 프롬프트 단어만 변경하면 작업 전환이 가능합니다. 따라서 추론 속도가 빨라 다양한 문서 파싱 시나리오에 적합합니다.

4. MonkeyOCR: 구조-인식-관계 기반 문서 분석

* 온라인 실행:https://go.hyper.ai/2SDMC

* 단계별 튜토리얼:2.6k개의 별을 보유한 MonkeyOCR-3B는 영어 문서 분석 작업에서 72B 모델을 능가하고 SOTA 성능에 도달했습니다.

화중과학기술대학교와 킹소프트 오피스가 공동 오픈소스로 개발한 이 문서 파싱 모델은 비정형 콘텐츠를 정형 정보로 효율적으로 변환합니다. 정밀한 레이아웃 분석, 콘텐츠 인식 및 논리적 순서를 기반으로 파싱 정확도와 효율성을 크게 향상시킵니다. 복잡한 문서의 경우 평균 5.1%, 수식 파싱의 경우 15.0%, 표 파싱의 경우 8.6%의 성능 향상을 보입니다. 다중 페이지 처리 속도는 초당 0.84페이지로 유사 도구보다 훨씬 빠릅니다. 다양한 문서 유형과 언어를 지원하여 논문, 교과서, 신문 등의 문서 처리에 적합하며, 문서 디지털화 및 자동화를 강력하게 지원합니다.

5. GOT-OCR-2.0: 세계 최초의 범용 엔드투엔드 OCR 모델

* 온라인 실행:https://go.hyper.ai/NGNZi

StepFun, Megvii Technology, 중국과학원 대학교, 그리고 칭화대학교가 공동 개발한 이 통합 엔드투엔드 모델은 범용 OCR 이론을 기반으로 하며, 통합 아키텍처를 통해 OCR 정확도와 효율성을 크게 향상시킵니다. 유연하고 적응성이 뛰어난 이 모델은 장면 텍스트 인식을 지원하고 여러 페이지 문서를 효율적으로 처리하여 다양하고 복잡한 애플리케이션 시나리오에 적합합니다.

6. InkSight 데모: 손으로 쓴 텍스트 디지털화

* 온라인 실행:https://go.hyper.ai/LofxZ

* 단계별 튜토리얼:기존 OCR을 넘어! Google의 최신 성과인 InkSight의 원클릭 배포: 손으로 쓴 텍스트를 정확하게 인식하고 중국어와 영어에 대한 부담 없음

2024년 구글 리서치에서 출시한 이 혁신적인 AI 기술은 인간의 읽기 및 학습 과정을 모방하여 손글씨 텍스트를 지속적으로 다시 쓰고 학습함으로써 텍스트의 모양과 의미에 대한 이해를 축적합니다. 사람은 InkSight에서 생성된 텍스트 추적을 최대 871 TP3T의 정확도로 읽을 수 있습니다. InkSight는 복잡한 배경, 흐릿한 환경 또는 저조도 환경에서 손글씨 텍스트를 처리할 때 더욱 높은 인식 정확도를 보여줍니다.