11 天前

OCR的缩放定律实证研究

Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han
OCR的缩放定律实证研究
摘要

在自然语言处理(Natural Language Processing, NLP)领域,模型规模、数据量、计算资源与模型性能之间的缩放规律已得到广泛研究。然而,光学字符识别(Optical Character Recognition, OCR)领域的缩放规律尚未被系统探究。为弥补这一空白,我们开展了全面的研究,深入分析了文本识别任务中性能与模型规模、数据量及计算资源之间的关联性。研究结果表明,在其他影响因素保持不变的前提下,性能与模型规模、训练数据量之间均呈现出平滑的幂律关系。此外,我们构建了一个大规模数据集,命名为REBU-Syn,包含600万张真实样本和1800万张合成样本。基于所发现的缩放规律以及该新数据集,我们成功训练出一种场景文本识别模型,在6个常用测试基准上取得了新的最先进性能,平均Top-1准确率达到97.42%。相关模型与数据集已公开发布,访问地址为:https://github.com/large-ocr-model/large-ocr-model.github.io。

OCR的缩放定律实证研究 | 最新论文 | HyperAI超神经