온라인 튜토리얼 | 일반 소비자용 그래픽 카드에서도 실행 가능할까요? 경량 모델 OCRFlux-3B가 최초로 복잡한 텍스트의 지능적 인식을 달성했습니다.

PDF를 변환할 때 더 이상 수식, 표, 페이지 간 텍스트가 레이아웃을 방해하는 것에 대해 걱정할 필요가 없습니다!
일괄 문서 구문 분석, 구조화된 정보 추출, 페이지 간 콘텐츠 병합과의 호환성 지원... ChatDOC 팀은 PDF와 이미지를 깔끔하고 읽기 쉬운 일반 텍스트 마크다운 형식으로 변환할 수 있는 다중 모드 대규모 언어 모델 기반 툴킷인 OCRFlux-3B를 출시했습니다.
OCRFlux-3B는 페이지 수준의 텍스트 변환 기능을 제공하며, 이를 통해 PDF 및 이미지의 텍스트를 Markdown 형식으로 정확하게 변환할 수 있습니다.이 도구는 반복되는 헤더, 행이나 열 확장, 수평 페이지, 중첩된 구조와 같은 복잡한 표를 처리할 수 있을 뿐만 아니라, 논문 속의 복잡한 수식을 인식하고 여러 페이지에 걸쳐 표와 문단을 병합하는 기능도 지원합니다.복잡한 여러 열 레이아웃, 그래픽, 삽입에서도 텍스트의 자연스러운 읽기 순서가 유지됩니다. PDF 파일을 편집 및 검색 가능한 마크다운 텍스트로 변환한 후, 연구자는 PDF 문서에서 표와 수식을 빠르게 추출할 수 있습니다.현재 OCRFlux-3B는 오픈 소스 OCR 프로젝트에서 이 기능을 달성한 최초의 모델입니다.
OCRFlux-3B는 Qwen2.5-VL-3B-Instruct 다중 모드 시각 언어 모델을 기반으로 미세 조정된 가벼운 모델이므로 소비자용 그래픽 카드(예: GTX 3090)에서도 실행할 수 있습니다.
현재,「OCRFlux-3B: 지능형 텍스트 인식 툴킷」HyperAI 공식 웹사이트(hyper.ai)의 튜토리얼 섹션이 공개되었습니다. 클릭 한 번으로 PDF 문서, 이미지 문서, 그리고 여러 파일을 검색 가능한 마크다운 텍스트로 변환하는 과정을 온라인에서 직접 경험해 보세요. 지금 바로 체험해 보세요!
튜토리얼 링크:
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=Ada0322_NR0n
데모 실행
1. hyper.ai 홈페이지에서 튜토리얼 페이지를 선택하고 OCRFlux-3B: 지능형 텍스트 인식 툴킷을 선택한 후 이 튜토리얼을 온라인으로 실행을 클릭합니다.


2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA GeForce RTX 4090"을 선택하세요. OpenBayes 플랫폼은 필요에 따라 "Pay as you go" 또는 "Daily/Weekly/Monthly"의 네 가지 결제 옵션을 제공합니다. "PyTorch" 이미지를 선택한 후 "Continue"를 클릭하세요. 신규 사용자는 아래 초대 링크를 통해 등록하시면 RTX 4090 4시간과 CPU 사용 시간 5시간을 무료로 이용하실 수 있습니다!
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.

효과 시연
API 주소를 클릭하여 데모 페이지로 이동하여 모델을 체험해 보세요. 모델 페이지에서 PDF 문서/이미지 문서/여러 파일을 업로드하고 "처리"를 클릭하면 해당 마크다운 텍스트가 생성됩니다. 결과는 다음과 같습니다.

OCRFlux-3B는 논문에 삽입된 표와 수식을 쉽게 식별할 수도 있습니다.




이 글은 이번 호에 추천하는 튜토리얼입니다. 여러분 모두 직접 체험해 보세요⬇️
튜토리얼 링크: