
초록
자연어처리(NLP) 분야에서 모델 크기, 데이터 양, 계산량 및 모델 성능 간의 스케일링 법칙에 대한 연구가 광범위하게 이루어져 왔으나, 문자 인식(OCR) 분야에서는 이러한 스케일링 법칙에 대한 연구가 아직 미흡한 실정이다. 이를 보완하기 위해 본 연구에서는 텍스트 인식 분야에서 모델 규모, 데이터 양, 계산량과 성능 간의 상관관계를 종합적으로 분석하였다. 그 결과, 다른 영향 요인들을 일정하게 유지할 때, 성능과 모델 크기, 훈련 데이터 양 사이에 매끄러운 거듭제곱 법칙이 존재함을 확인하였다. 또한, 600만 개의 실제 샘플과 1800만 개의 합성 샘플을 포함하는 대규모 데이터셋인 REBU-Syn을 구축하였다. 본 연구에서 도출한 스케일링 법칙과 새로운 데이터셋을 기반으로, 장면 텍스트 인식 모델을 성공적으로 훈련시켜 6개의 대표적인 테스트 벤치마크에서 최신 기준(SOTA) 성능을 달성하였으며, 상위 1위 평균 정확도는 97.42%에 달했다. 본 연구에서 개발한 모델과 데이터셋은 공개되어 있으며, https://github.com/large-ocr-model/large-ocr-model.github.io 에서 접근 가능하다.