
要約
自然言語処理(NLP)分野において、モデルサイズ、データ量、計算量およびモデル性能のスケーリング則は広範にわたって研究されてきた。一方で、文字認識(OCR)分野におけるスケーリング則については、まだ十分な調査がなされていない。この課題に応じて、本研究ではテキスト認識分野において、性能とモデルサイズ、データ量、計算量との関係を包括的に検証した。その結果、他の影響要因を一定に保った状態で、性能とモデルサイズ、および学習データ量の間に滑らかなべき乗則(power law)の関係が存在することが明らかになった。さらに、本研究では600万枚の実データサンプルと1800万枚の合成データサンプルを含む大規模データセット「REBU-Syn」を構築した。本研究で得られたスケーリング則と新規データセットを活用し、シーンテキスト認識モデルを成功裏に訓練した結果、6つの一般的なベンチマークにおいて新しい最良の性能を達成し、トップ-1平均精度97.42%を記録した。本研究で開発したモデルおよびデータセットは、https://github.com/large-ocr-model/large-ocr-model.github.io にて公開されている。