HyperAI초신경

2.6k개의 별을 보유한 MonkeyOCR-3B는 영어 문서 분석 작업에서 72B 모델을 능가하고 SOTA 성능에 도달했습니다.

特色图像

오늘날 OCR(광학 문자 인식) 기술은 더 이상 텍스트 인식에만 국한되지 않고, 더욱 복잡한 문서 분석 시스템으로 점차 진화하고 있습니다. 초기의 단순 문자 추출부터 최근 몇 년 동안 등장한 다중 모드 대형 모델까지,OCR은 레이아웃 이해, 의미 인식, 구조 복원 등의 작업에 통합되었으며, 문서 인식, 자막 인식, 물류 분류, 문헌 검색 및 기타 분야에서 널리 사용되었습니다.다양한 애플리케이션 시나리오는 모델에 더욱 엄격한 요구 사항을 제시합니다.

예를 들어, 대부분의 기존 OCR 모델은 모듈식 설계를 채택하고 있는데, 이는 문서 분석을 여러 개의 세분화된 하위 작업으로 분해해야 하므로 비효율적이고 균등하게 최적화하기 어렵습니다. 엔드투엔드 대규모 모델은 강력하지만, 리소스 요구량이 매우 높고 범용적으로 구현하기 어렵습니다. 텍스트, 표, 수식, 내장 그래픽 등 여러 요소로 구성된 복잡한 문서는 여전히 정확도에 "심각한 손상"을 초래합니다.

이를 고려하여,화중과학기술대학교와 Kingsoft Office는 MonkeyOCR이라는 문서 파싱 모델을 공동으로 출시했습니다.비정형 문서 콘텐츠를 구조화된 정보로 효율적으로 변환할 수 있습니다. SRR 패러다임에서 문서 분석은 세 가지 기본 질문, 즉 어디에(구조), 무엇을(인식), 어떻게 구성할지(관계)로 추상화되며, 이는 각각 레이아웃 분석, 콘텐츠 인식, 논리적 정렬에 해당합니다. 이러한 명확한 작업 분해는 정확성과 속도 간의 균형을 이룹니다.정확성을 떨어뜨리지 않고 효율적이고 확장 가능한 처리를 지원합니다.

연구팀은 모델에 대한 충분한 데이터 지원을 제공하기 위해 MonkeyDoc이라는 데이터 세트를 구축했습니다.이는 현재까지 가장 포괄적인 문서 구문 분석 데이터 세트로, 390만 개의 인스턴스와 다양한 문서 유형(노트, PPT, 잡지, 시험지 등)을 포함하고 있습니다.동시에 다양한 구조적 블록(표, 이미지, 텍스트, 수식 등)도 자세히 표시됩니다.

연구팀의 실험 결과에 따르면 MonkeyOCR은 수식이나 표가 포함된 문서 등 복잡한 문서를 처리할 때 좋은 성능을 발휘하는 것으로 나타났습니다.수식과 표 구문 분석 작업의 성과는 각각 15.0%와 8.6%만큼 향상되었습니다.또한 초당 0.84페이지의 다중 페이지 문서 처리 속도 측면에서도 다른 모델을 크게 앞지르고 있습니다.

영어 문서 파싱 작업에서 3B 매개변수 모델이 주류 72B 모델을 능가하고 평균 성능이 SOTA 수준에 도달했다는 점은 주목할 만합니다. MonkeyOCR은 출시된 지 한 달도 채 되지 않았지만, GitHub 별점은 2.6만 개에 달했습니다.

HyperAI Super Neural 공식 웹사이트(hyper.ai)의 "튜토리얼" 섹션에서 "MonkeyOCR: 구조-인식-관계 3중 패러다임 기반 문서 분석"이 출시되었습니다. 직접 체험해 보세요⬇️

튜토리얼 링크:

https://go.hyper.ai/Llixk

데모 실행

1. hyper.ai 홈페이지에 접속한 후, "튜토리얼" 페이지를 선택하고, "MonkeyOCR: 구조-인식-관계 3중 패러다임 기반 문서 구문 분석"을 선택한 후, "이 튜토리얼을 온라인으로 실행"을 클릭하세요.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA GeForce RTX 4090"과 "PyTorch" 이미지를 선택하세요. OpenBayes 플랫폼은 4가지 청구 방법을 제공합니다. 귀하의 요구 사항에 따라 "사용 후 결제" 또는 "일일/주간/월간"을 선택할 수 있습니다. "계속"을 클릭하세요. 신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.

효과 시연

PDF나 이미지를 업로드하고 "구문 분석"을 클릭하면 구문 분석이 가능합니다. "채팅" 모드를 선택하신 경우, "프롬프트 선택"에서 "프롬프트"를 선택해야 합니다.

출력 결과는 "결과 표시"에 표시됩니다. "PDF 레이아웃 다운로드/마크다운 다운로드"를 클릭하면 PDF/마크다운 형식 문서를 로컬 컴퓨터로 다운로드할 수 있습니다.

위 내용은 이번 호에 권장되는 튜토리얼입니다. 모두 체험해 보세요! ⬇️

튜토리얼 링크:

https://go.hyper.ai/Llixk