Command Palette
Search for a command to run...

초록
대형 다중 모드 모델(LMM)의 광학적 문자 인식(OCR) 기능에 대한 평가에 대한 관심이 증가하고 있습니다. 기존 벤치마크는 텍스트 인식에서 LMM의 뛰어난 성능을 강조했지만, 텍스트 위치 파악, 필기 내용 추출, 논리적 추론과 같은 어려운 작업에서의 능력은 아직 충분히 탐구되지 않았습니다. 이 간극을 메우기 위해, 우리는 OCRBench v2를 소개합니다. 이는 현재 가장 포괄적인 작업 세트(이전 다중 장면 벤치마크 OCRBench보다 4배 많은 작업 포함), 가장 넓은 시나리오 커버리지(31개 다양한 시나리오), 철저한 평가 지표를 갖춘 대규모 양방언어 텍스트 중심 벤치마크입니다. 또한, 10,000개의 인간 검증 질문-답변 쌍과 난이도 높은 샘플 비율을 포함하고 있습니다. 더불어, 1,500개의 수동으로 주석 처리된 이미지를 사용하여 사설 테스트 세트를 구축했습니다. 공개 및 사설 테스트 세트 모두에서 일관된 평가 경향이 관찰되어 OCRBench v2의 신뢰성을 확인할 수 있었습니다. 최신 LMM들을 철저히 벤치마킹한 결과, 대부분의 LMM들이 총점 100 중 50점 미만을 받았으며, 자주 접하지 않는 텍스트 인식, 세부적인 인식(fine-grained perception), 레이아웃 인식(layout perception), 복잡한 요소 해석(complex element parsing), 논리적 추론 등 다섯 가지 유형의 제약 조건을 가지고 있는 것으로 나타났습니다. 프로젝트 웹사이트는 다음과 같습니다: https://99franklin.github.io/ocrbench_v2/