Une étude empirique de la loi d’échelle pour la reconnaissance optique de caractères

Les lois d'échelle relatives à la taille des modèles, au volume de données, à la puissance de calcul et à la performance des modèles ont été largement étudiées dans le domaine du traitement du langage naturel (NLP). Toutefois, les lois d'échelle en reconnaissance optique de caractères (OCR) n'ont pas encore fait l'objet de recherches approfondies. Afin de combler cette lacune, nous avons mené des études complètes visant à analyser la corrélation entre la performance et l'échelle des modèles, le volume de données d'entraînement ainsi que la puissance de calcul dans le domaine de la reconnaissance de texte. Nos résultats montrent clairement que, lorsque les autres facteurs influents sont maintenus constants, des lois puissance régulières existent entre la performance et la taille du modèle, ainsi qu'entre la performance et le volume des données d'entraînement. Par ailleurs, nous avons construit un grand jeu de données appelé REBU-Syn, comprenant 6 millions d'échantillons réels et 18 millions d'échantillons synthétiques. En s'appuyant sur nos lois d'échelle et sur ce nouveau jeu de données, nous avons réussi à entraîner un modèle de reconnaissance de texte en scène atteignant un nouveau record sur 6 benchmarks courants, avec une précision moyenne en top-1 de 97,42 %. Les modèles et le jeu de données sont disponibles publiquement à l'adresse suivante : https://github.com/large-ocr-model/large-ocr-model.github.io.