RolmOCR 크로스 시나리오 초고속 OCR 오픈소스 인식 새로운 벤치마크

1. 튜토리얼 소개
RolmOCR은 Reducto AI 팀이 2025년 4월에 Qwen2.5-VL-7B 시각 언어 모델을 기반으로 개발한 오픈 소스 OCR 도구입니다. 이 도구는 olmOCR과 같은 유사 도구보다 성능이 뛰어나며 이미지와 PDF에서 텍스트를 빠르고 메모리 사용량 없이 추출할 수 있습니다. RolmOCR은 PDF 메타데이터에 의존하지 않아 프로세스가 간소화되고 손으로 쓴 메모와 학술 논문 등 다양한 문서 유형을 지원합니다. Reducto 팀은 모델 업데이트와 교육 데이터 최적화를 통해 문서 디지털화의 효율성을 개선하는 것을 목표로 합니다.
이 튜토리얼에서는 RolmOCR을 데모로 사용하고, 이미지에는 vllm 0.7.3-2204를 사용하고, 컴퓨팅 리소스에는 RTX 4090을 사용합니다.
2. 기능 목록
- 빠른 텍스트 추출: 빠른 처리 속도로 이미지와 PDF에서 텍스트를 추출하며, 대량의 문서에 적합합니다.
- 다양한 문서를 지원합니다. 손으로 쓴 메모, 인쇄된 문서, 복잡한 표를 인식할 수 있습니다.
- 오픈 소스이며 무료입니다. Apache 2.0 라이선스에 따라 출시되었으며, 코드는 자유롭게 다운로드하여 수정할 수 있습니다.
- 낮은 메모리 사용량: olmOCR보다 리소스 효율성이 높고 실행 시 컴퓨터 요구 사항이 낮습니다.
- 메타데이터가 필요하지 않습니다. PDF의 추가 정보에 의존하지 않고 원본 문서에서 직접 작업할 수 있습니다.
- 향상된 기울어진 문서 인식: 15%가 훈련 데이터에서 회전되어 양수가 아닌 각도가 있는 문서에 대한 적응성을 향상시킵니다.
- 최신 모델 기반: Qwen2.5-VL-7B를 사용하여 인식 정확도와 효율성을 개선합니다.
3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 약 1~2분 정도 기다려 주신 후 페이지를 새로고침해 주세요.

2. 기능 시연


인용 정보
GitHub 사용자에게 감사드립니다 보이스우 이 튜토리얼 제작을 위한 프로젝트 참조 정보는 다음과 같습니다.
@misc{RolmOCR,
author = {Reducto AI},
title = {RolmOCR: A Faster, Lighter Open Source OCR Model},
year = {2025},
}
교류 및 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
