NeurIPS 2025: 화중과학기술대학교 등에서 OCRBench v2를 출시했습니다. Gemini는 중국어 순위에서 1위를 차지했지만, 합격점에 그쳤습니다.

特色图像

지난 수십 년 동안 광학 문자 인식(OCR) 기술의 위치와 가치는 전통적인 이미지 인식 도구에서 지능형 정보 시스템의 핵심 기능으로 엄청난 발전을 거듭해 왔습니다. 초기에는 주로 이미지에서 인쇄된 텍스트나 손으로 쓴 텍스트를 추출하여 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 데 사용되었습니다. 오늘날, 다양한 요구에 따라 딥러닝과 멀티모달 모델이 발전함에 따라 OCR 기술의 경계는 끊임없이 확장되고 있습니다. OCR은 단순히 문자를 인식하는 데 그치지 않고 문서의 구조와 의미까지 이해합니다.복잡한 시나리오에서 테이블, 레이아웃, 혼합된 텍스트와 그래픽을 정확하게 구문 분석합니다.

또한, 대규모 멀티모달 사전 학습에서 모델은 웹 페이지 스크린샷, UI 인터페이스, 포스터, 문서 등 텍스트가 포함된 대량의 이미지 데이터에 노출되며, 비지도 학습 과정에서 OCR 기능이 자연스럽게 발휘됩니다. 따라서 대규모 모델은 더 이상 외부 OCR 모듈에 의존하지 않습니다.대신, 종단 간 추론 과정에서 인식, 이해 및 답변을 직접 완료할 수 있습니다.더 중요한 것은, OCR 기술이 고차원 지능형 작업의 필수 요소가 되고 있다는 점입니다. 모델이 이미지 속 텍스트를 정확하게 인식할 수 있어야만 차트 분석, 문서 질의응답, 지식 추출, 심지어 코드 이해까지 더욱 완벽하게 수행할 수 있습니다.

OCR 작업의 성능 또한 대규모 멀티모달 모델의 성능을 평가하는 중요한 지표 중 하나라고 할 수 있습니다. 현재의 요구는 단순히 "텍스트 읽기"를 넘어섰습니다. 표, 차트, 필기 노트, 문서의 복잡한 레이아웃, 텍스트 이미지의 텍스트 배치, 그리고 텍스트 기반 추론은 모두 모델이 극복해야 할 어려운 과제입니다.그러나 대부분의 기존 OCR 평가 벤치마크는 단일 작업과 제한된 시나리오를 가지고 있어 모델 점수가 빠르게 포화되고 복잡한 애플리케이션에서 해당 기능을 실제로 반영하기 어렵습니다.

이를 고려하여,화중과학기술대학의 바이샹 팀은 남중국이공대학, 애들레이드 대학, 바이트댄스와 협력하여 차세대 OCR 벤치마크인 OCRBench v2를 출시했습니다.2023년부터 2025년까지 중국어와 영어로 58개의 주류 멀티모달 모델을 평가했습니다. 각 목록의 상위 10개 모델은 아래 그림과 같습니다.

OCRBench v2 중국어 순위
OCRBench v2 영어 순위

* 영어 순위 보기:

https://go.hyper.ai/wlGTR


* 중국어 목록 보기:

https://go.hyper.ai/HZenn

* 프로젝트 오픈소스 주소:

https://github.com/Yuliang-Liu/MultimodalOCR

다양한 시나리오를 포괄하는 23개의 하위 작업

OCRBench v2는 23개의 하위 작업과 8개의 핵심 기능 차원을 다룹니다.——텍스트 인식, 텍스트 위치 지정, 텍스트 감지 및 인식, 관계 추출, 요소 구문 분석, 수학적 계산, 시각적 텍스트 이해 및 지식 추론.

OCRBench v2에서 다루는 작업의 일반적인 예

OCRBench v2의 공개 데이터셋에는 80개 이상의 학술 데이터셋과 일부 독점 데이터셋에서 추출한 10,000개의 고품질 QA가 포함되어 있습니다. 이러한 데이터셋은 실제 OCR 애플리케이션의 다양한 시나리오를 포괄하도록 수동으로 검토되었습니다. 또한, OCRBench v2에는 수동으로 수집되고 주석이 추가된 1,500개의 QA로 구성된 독립적인 비공개 데이터가 포함되어 있습니다. 작업 설정 및 시나리오 커버리지는 공개 데이터셋과 동일합니다.

* 데이터셋 다운로드 주소:
https://go.hyper.ai/VNHSX

연구팀의 실험 결과, 공개 데이터와 비공개 데이터의 순위가 매우 일관성이 있는 것으로 나타났습니다.이는 OCRBench v2 작업 설계, 데이터 구축 및 평가 지표의 합리성을 입증합니다.이는 대규모 멀티모달 모델의 기존 한계를 측정하는 데 있어 중요한 가치를 보여줍니다.

"OCRBench v2: 시각적 텍스트 현지화 및 추론에 대한 대규모 멀티모달 모델을 평가하기 위한 개선된 벤치마크"라는 제목의 관련 연구 논문이 NeurIPS 2025(데이터세트 및 벤치마크 트랙)에 포함되었습니다.

* 서류 주소:
https://go.hyper.ai/VNHSX

주류 모델은 일반적으로 편향되어 있으며, 가장 높은 점수는 간신히 합격입니다.

OCRBench v2에서 발표한 최신 평가 목록에서는Gemini-2.5-Pro는 중국어 목록에서 1위, 영어 목록에서 3위를 차지했고, Seed1.6-vision은 영어 목록에서 1위, 중국어 목록에서 2위를 차지했습니다.오픈소스 진영에서는 Qwen3-Omni-30B-A3B-Instruct가 영어 목록에서 2위, 중국어 목록에서 3위를 차지했습니다.

모델의 핵심 역량 성능을 분석해 보면, 이러한 대규모 멀티모달 모델은 일반적으로 "편향된" 현상을 보인다는 것을 알 수 있습니다. 모든 핵심 역량에서 우수한 성능을 보이는 모델은 거의 없습니다.최고 순위의 모델조차도 영어와 중국어 과제에서 모두 100점 만점에 평균 60점 정도만 받았습니다.또한, 각 모델은 약간씩 다른 강점을 가지고 있습니다. 예를 들어, Gemini-2.5-Pro와 같은 상용 모델은 계산 문제에서 뚜렷한 우위를 보이며 강력한 논리적 추론 능력을 보여줍니다. 강력한 텍스트 현지화 기능을 갖춘 Llama-3.1-Nemotron-Nano-VL-8B-V1은 영어 목록에서 4위를 차지했습니다.

대부분의 모델은 기본적인 텍스트 인식에서는 비교적 좋은 성능을 보이지만, 참조, 발견, 구문 분석과 같이 세밀한 공간 인식과 구조화된 이해가 필요한 작업에서는 일반적으로 낮은 점수를 받습니다. 예를 들어, 최고 순위를 기록한 Seed1.6-vision 모델조차 발견에서 38.0점을 받았는데, 이는 텍스트 기반 장면이나 텍스트와 이미지가 혼합된 문서와 같은 실제 상황에서의 효과에 한계가 있음을 의미합니다.

또한 중국어와 영어 목록을 비교하여,많은 모델의 다국어 기능이 고르지 않은 것으로 나타났습니다.예를 들어, Llama-3.1-Nemotron-Nano-VL-8B-V1은 영어 목록에서 4위(평균 점수 56.4)를 차지했지만, 중국어 목록에서는 31위(평균 점수 40.1)에 그쳤습니다. 이는 영어 시나리오에서 더 큰 이점이 있음을 나타내며, 이는 데이터 분포나 훈련 전략과 관련이 있을 수 있습니다.

동시에, 클로즈드 소스 모델이 여전히 선두를 유지하고 있지만, 우수한 오픈소스 모델들의 경쟁력이 크게 향상되었습니다. 목록에서는 Gemini 시리즈, GPT5, Seed1.6-vision과 같은 클로즈드 소스 모델이 전반적으로 더 우수한 성능을 보였지만, Qwen-Omni, InternVL, SAIL-VL, Ovis와 같은 오픈소스 모델들의 경쟁력이 크게 향상되었습니다.영어 목록의 상위 10개 모델 중 5개가 오픈소스 모델이고, 중국어 목록의 상위 10개 모델 중 7개가 오픈소스 모델입니다.오픈 소스 모델은 텍스트 현지화, 요소 추출, 시각적 텍스트 이해와 같은 작업에서도 최첨단 성능을 달성할 수 있습니다.

OCRBench v2 순위는 분기별로 업데이트되며, HyperAI는 최신 평가 결과를 계속 추적합니다.