HyperAIHyperAI

Command Palette

Search for a command to run...

OCRにおけるスケーリング則に関する実証的研究

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

概要

自然言語処理(NLP)分野において、モデルサイズ、データ量、計算量およびモデル性能のスケーリング則は広範にわたって研究されてきた。一方で、文字認識(OCR)分野におけるスケーリング則については、まだ十分な調査がなされていない。この課題に応じて、本研究ではテキスト認識分野において、性能とモデルサイズ、データ量、計算量との関係を包括的に検証した。その結果、他の影響要因を一定に保った状態で、性能とモデルサイズ、および学習データ量の間に滑らかなべき乗則(power law)の関係が存在することが明らかになった。さらに、本研究では600万枚の実データサンプルと1800万枚の合成データサンプルを含む大規模データセット「REBU-Syn」を構築した。本研究で得られたスケーリング則と新規データセットを活用し、シーンテキスト認識モデルを成功裏に訓練した結果、6つの一般的なベンチマークにおいて新しい最良の性能を達成し、トップ-1平均精度97.42%を記録した。本研究で開発したモデルおよびデータセットは、https://github.com/large-ocr-model/large-ocr-model.github.io にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
OCRにおけるスケーリング則に関する実証的研究 | 記事 | HyperAI超神経