HyperAIHyperAI

Command Palette

Search for a command to run...

OCRFlux-3B: 지능형 텍스트 인식 툴킷

날짜

6달 전

태그

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

GitHub 스타

OCRFlux-3B는 ChatDOC 팀이 2025년 6월 17일에 발표한 다중 모드 대규모 언어 모델 기반의 툴킷으로, PDF와 이미지를 깔끔하고 읽기 쉬운 일반 텍스트(Markdown)로 변환하는 데 사용됩니다. 이 도구는 페이지 단위 텍스트 변환 기능을 제공할 뿐만 아니라, 여러 페이지에 걸쳐 표와 단락을 병합하는 기능도 지원하여 복잡한 문서 구조 처리를 강력하게 지원합니다.

이 튜토리얼에서는 RTX 4090 카드 하나를 리소스로 사용합니다. 이 프로젝트는 PDF 문서, 이미지 문서, 여러 파일의 세 가지 데모 예시를 제공합니다.

2. 프로젝트 예시

PDF 문서

이미지 문서

여러 파일

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

PDF 문서

매개변수 설명

  • 고급 설정:
    • 대상 이미지 크기: 생성된 이미지의 크기를 제어하는 데 사용되는 대상 이미지 크기입니다.
    • 최대 페이지 재시도: PDF 페이지 구문 분석 오류를 처리하는 데 사용되는 최대 재시도 횟수입니다.
    • 페이지 간 병합 건너뛰기: 문서의 여러 페이지에 걸쳐 콘텐츠를 처리하는 데 사용되는 페이지 간 병합을 건너뜁니다.

이미지 문서

여러 파일

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp