Eine empirische Studie zur Skalierungsgesetz-Beziehung für OCR

Die Skalierungsgesetze in Bezug auf Modellgröße, Datenvolumen, Rechenaufwand und Modellleistung wurden im Bereich der Natural Language Processing (NLP) umfassend untersucht. Die Skalierungsgesetze im Bereich der Optical Character Recognition (OCR) hingegen wurden bisher noch nicht systematisch erforscht. Um diese Lücke zu schließen, führten wir umfassende Studien durch, in denen wir die Korrelation zwischen Leistung und Skalierung von Modellen, Datenvolumen sowie Rechenaufwand im Bereich der Texterkennung analysierten. Die Ergebnisse zeigen eindeutig glatte Potenzgesetze zwischen der Leistung und der Modellgröße sowie dem Umfang der Trainingsdaten, sofern andere Einflussfaktoren konstant gehalten werden. Zudem haben wir eine großskalige Datensammlung namens REBU-Syn erstellt, die aus 6 Millionen realen und 18 Millionen synthetischen Bildern besteht. Auf Basis unserer entdeckten Skalierungsgesetze und des neuen Datensatzes konnten wir ein Modell für die Szenentexterkennung erfolgreich trainieren, das eine neue State-of-the-Art-Leistung auf sechs gängigen Testbenchmarks erzielt – mit einer durchschnittlichen Top-1-Accuracy von 97,42 %. Die Modelle und der Datensatz sind öffentlich unter https://github.com/large-ocr-model/large-ocr-model.github.io verfügbar.