HyperAIHyperAI

Command Palette

Search for a command to run...

GOT-OCR-2.0 세계 최초의 범용 엔드투엔드 OCR 모델

날짜

2년 전

태그

논문 URL

2409.01704

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

프로젝트 소개

GOT-OCR-2.0 본 프로젝트는 일반 OCR 이론을 기반으로 광학 문자 인식(OCR)의 정확성과 효율성을 향상시키는 데 중점을 둔 통합 엔드투엔드 모델입니다. StepFun, Megvii Technology, 중국과학원대학교, 칭화대학교 연구팀이 공동으로 수행했으며, 관련 논문은 다음과 같습니다. 일반 OCR 이론: 통합 엔드투엔드 모델을 통한 OCR-2.0으로의 전환GOT-OCR 2.0은 장면 텍스트 인식 및 문서 인식과 같은 다양한 응용 시나리오에 적합합니다. 통합 아키텍처를 채택하여 텍스트의 다양성과 복잡성을 효율적으로 처리할 수 있습니다. 또한 장면 텍스트 인식은 물론 여러 페이지로 구성된 문서도 처리할 수 있어 OCR 분야에 더욱 뛰어난 유연성을 제공합니다.

GOT-OCR-2.0  특징은 다음과 같습니다.

  • 강력한 다재다능함: 일반적인 OCR 이론을 기반으로 장면 텍스트와 표, 수식과 같은 복잡한 문서 구조를 처리할 수 있습니다.
  • 엔드투엔드 모델: 통합된 엔드투엔드 아키텍처는 이미지 입력을 텍스트 출력으로 통합하여 전체 OCR 프로세스를 단순화합니다.
  • 효율적인 성능: 통합된 Flash-Attention 기술로 인식 속도와 성능이 향상되었습니다.
  • 다중 플랫폼 지원: CUDA 가속을 지원하고 GOT-OCR2.0 플랫폼과 통합되어 사전 학습된 모델을 로드합니다.
  • 폭넓게 사용 가능: 여러 페이지 문서나 장면 텍스트 등 다양한 적용 시나리오에 적합합니다.

효과 예시


실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

2. 리소스 할당이 완료되면 백그라운드에서 자동으로 모델을 초기화합니다(). 이후 플랫폼에서 제공하는 API 주소를 이용하여 직접 작업 페이지에 접속할 수 있습니다(실명 인증이 완료되어야 하며, 이 단계에서는 작업 공간을 열 필요가 없습니다)

3. 대상 이미지 업로드

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp