HyperAI초신경

GOT-OCR-2.0 세계 최초의 범용 엔드투엔드 OCR 모델

프로젝트 소개

GOT-OCR-2.0  이는 일반 OCR 이론을 기반으로 한 통합된 엔드투엔드 모델로, 광학 문자 인식(OCR)의 정확도와 효율성을 개선하는 데 중점을 두고 있습니다. 이 프로젝트는 StepFun, Megvii Technology, 중국과학원 대학, 청화대학 연구팀이 공동으로 출시했습니다. 관련 논문 결과는 "일반 OCR 이론: 통합 엔드투엔드 모델을 통한 OCR-2.0으로의 전환"는 장면 텍스트 및 문서 인식 등 다양한 응용 분야에 적합합니다. 텍스트의 다양성과 복잡성을 효율적으로 처리할 수 있는 통합 아키텍처를 채택했습니다. GOT-OCR 2.0은 장면 텍스트 인식뿐만 아니라 여러 페이지 문서 처리도 지원하여 OCR 분야의 유연성을 높여줍니다.

GOT-OCR-2.0  특징은 다음과 같습니다.

  • 강력한 다재다능함: 일반적인 OCR 이론을 기반으로 장면 텍스트와 표, 수식과 같은 복잡한 문서 구조를 처리할 수 있습니다.
  • 엔드투엔드 모델: 통합된 엔드투엔드 아키텍처는 이미지 입력을 텍스트 출력으로 통합하여 전체 OCR 프로세스를 단순화합니다.
  • 효율적인 성능: 통합된 Flash-Attention 기술로 인식 속도와 성능이 향상되었습니다.
  • 다중 플랫폼 지원: CUDA 가속을 지원하고 GOT-OCR2.0 플랫폼과 통합되어 사전 학습된 모델을 로드합니다.
  • 폭넓게 사용 가능: 여러 페이지 문서나 장면 텍스트 등 다양한 적용 시나리오에 적합합니다.

효과 예시


실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

2. 리소스 할당이 완료되면 백그라운드에서 자동으로 모델을 초기화합니다(). 이후 플랫폼에서 제공하는 API 주소를 이용하여 직접 작업 페이지에 접속할 수 있습니다(실명 인증이 완료되어야 하며, 이 단계에서는 작업 공간을 열 필요가 없습니다)

3. 대상 이미지 업로드