날짜

2년 전

태그

OCR

RTX 5090

논문 URL

2409.01704

GitHub

Ucas-HaoranWei/GOT-OCR2.0/8.2k

프로젝트 소개

GOT-OCR-2.0 본 프로젝트는 일반 OCR 이론을 기반으로 광학 문자 인식(OCR)의 정확성과 효율성을 향상시키는 데 중점을 둔 통합 엔드투엔드 모델입니다. StepFun, Megvii Technology, 중국과학원대학교, 칭화대학교 연구팀이 공동으로 수행했으며, 관련 논문은 다음과 같습니다. 일반 OCR 이론: 통합 엔드투엔드 모델을 통한 OCR-2.0으로의 전환GOT-OCR 2.0은 장면 텍스트 인식 및 문서 인식과 같은 다양한 응용 시나리오에 적합합니다. 통합 아키텍처를 채택하여 텍스트의 다양성과 복잡성을 효율적으로 처리할 수 있습니다. 또한 장면 텍스트 인식은 물론 여러 페이지로 구성된 문서도 처리할 수 있어 OCR 분야에 더욱 뛰어난 유연성을 제공합니다.

GOT-OCR-2.0 특징은 다음과 같습니다.

강력한 다재다능함: 일반적인 OCR 이론을 기반으로 장면 텍스트와 표, 수식과 같은 복잡한 문서 구조를 처리할 수 있습니다.
엔드투엔드 모델: 통합된 엔드투엔드 아키텍처는 이미지 입력을 텍스트 출력으로 통합하여 전체 OCR 프로세스를 단순화합니다.
효율적인 성능: 통합된 Flash-Attention 기술로 인식 속도와 성능이 향상되었습니다.
다중 플랫폼 지원: CUDA 가속을 지원하고 GOT-OCR2.0 플랫폼과 통합되어 사전 학습된 모델을 로드합니다.
폭넓게 사용 가능: 여러 페이지 문서나 장면 텍스트 등 다양한 적용 시나리오에 적합합니다.

효과 예시

실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

2. 리소스 할당이 완료되면 백그라운드에서 자동으로 모델을 초기화합니다(). 이후 플랫폼에서 제공하는 API 주소를 이용하여 직접 작업 페이지에 접속할 수 있습니다(실명 인증이 완료되어야 하며, 이 단계에서는 작업 공간을 열 필요가 없습니다)

3. 대상 이미지 업로드

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

AI 핵심 원리 컴퓨터 비전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 노트북 실행하기 Discord에서 논의하기

날짜

2년 전

태그

OCR

RTX 5090

논문 URL

2409.01704

GitHub

Ucas-HaoranWei/GOT-OCR2.0/8.2k

프로젝트 소개

GOT-OCR-2.0 특징은 다음과 같습니다.

강력한 다재다능함: 일반적인 OCR 이론을 기반으로 장면 텍스트와 표, 수식과 같은 복잡한 문서 구조를 처리할 수 있습니다.
엔드투엔드 모델: 통합된 엔드투엔드 아키텍처는 이미지 입력을 텍스트 출력으로 통합하여 전체 OCR 프로세스를 단순화합니다.
효율적인 성능: 통합된 Flash-Attention 기술로 인식 속도와 성능이 향상되었습니다.
다중 플랫폼 지원: CUDA 가속을 지원하고 GOT-OCR2.0 플랫폼과 통합되어 사전 학습된 모델을 로드합니다.
폭넓게 사용 가능: 여러 페이지 문서나 장면 텍스트 등 다양한 적용 시나리오에 적합합니다.

효과 예시

실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

2. 리소스 할당이 완료되면 백그라운드에서 자동으로 모델을 초기화합니다(). 이후 플랫폼에서 제공하는 API 주소를 이용하여 직접 작업 페이지에 접속할 수 있습니다(실명 인증이 완료되어야 하며, 이 단계에서는 작업 공간을 열 필요가 없습니다)

3. 대상 이미지 업로드

Notebook 개요

수준

입문

주제

AI 핵심 원리 컴퓨터 비전

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

3달 전

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

4달 전

FireRed-OCR 문서 구조 분석 모델

4달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

프로젝트 소개

효과 예시

실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

3. 대상 이미지 업로드

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

프로젝트 소개

효과 예시

실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

3. 대상 이미지 업로드

Notebook 개요

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

AI로 AI 구축

HyperAI Newsletters

프로젝트 소개

효과 예시

실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

3. 대상 이미지 업로드

Notebook 개요

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

AI로 AI 구축

HyperAI Newsletters

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

Command Palette

GOT-OCR-2.0 세계 최초의 범용 엔드투엔드 OCR 모델

프로젝트 소개

효과 예시

실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

3. 대상 이미지 업로드

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

GOT-OCR-2.0 세계 최초의 범용 엔드투엔드 OCR 모델

프로젝트 소개

효과 예시

실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

3. 대상 이미지 업로드

Notebook 개요

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

AI로 AI 구축

HyperAI Newsletters

Command Palette

GOT-OCR-2.0 세계 최초의 범용 엔드투엔드 OCR 모델

프로젝트 소개

효과 예시

실행 단계

1. 프로젝트의 오른쪽 상단에 있는 "복제"를 클릭한 다음 "다음"을 클릭하여 완료합니다. 기본 정보 > 컴퓨팅 성능 선택 > 검토. 마지막으로 "계속"을 클릭하여 개인 컨테이너에서 이 프로젝트를 엽니다.

3. 대상 이미지 업로드

Notebook 개요

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

AI로 AI 구축

HyperAI Newsletters

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델