16일 전

OCR에 대한 스케일링 법칙에 관한 실증 연구

Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han
OCR에 대한 스케일링 법칙에 관한 실증 연구
초록

자연어처리(NLP) 분야에서 모델 크기, 데이터 양, 계산량 및 모델 성능 간의 스케일링 법칙에 대한 연구가 광범위하게 이루어져 왔으나, 문자 인식(OCR) 분야에서는 이러한 스케일링 법칙에 대한 연구가 아직 미흡한 실정이다. 이를 보완하기 위해 본 연구에서는 텍스트 인식 분야에서 모델 규모, 데이터 양, 계산량과 성능 간의 상관관계를 종합적으로 분석하였다. 그 결과, 다른 영향 요인들을 일정하게 유지할 때, 성능과 모델 크기, 훈련 데이터 양 사이에 매끄러운 거듭제곱 법칙이 존재함을 확인하였다. 또한, 600만 개의 실제 샘플과 1800만 개의 합성 샘플을 포함하는 대규모 데이터셋인 REBU-Syn을 구축하였다. 본 연구에서 도출한 스케일링 법칙과 새로운 데이터셋을 기반으로, 장면 텍스트 인식 모델을 성공적으로 훈련시켜 6개의 대표적인 테스트 벤치마크에서 최신 기준(SOTA) 성능을 달성하였으며, 상위 1위 평균 정확도는 97.42%에 달했다. 본 연구에서 개발한 모델과 데이터셋은 공개되어 있으며, https://github.com/large-ocr-model/large-ocr-model.github.io 에서 접근 가능하다.

OCR에 대한 스케일링 법칙에 관한 실증 연구 | 최신 연구 논문 | HyperAI초신경