HyperAIHyperAI

Command Palette

Search for a command to run...

Eine empirische Studie zur Skalierungsgesetz-Beziehung für OCR

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

Zusammenfassung

Die Skalierungsgesetze in Bezug auf Modellgröße, Datenvolumen, Rechenaufwand und Modellleistung wurden im Bereich der Natural Language Processing (NLP) umfassend untersucht. Die Skalierungsgesetze im Bereich der Optical Character Recognition (OCR) hingegen wurden bisher noch nicht systematisch erforscht. Um diese Lücke zu schließen, führten wir umfassende Studien durch, in denen wir die Korrelation zwischen Leistung und Skalierung von Modellen, Datenvolumen sowie Rechenaufwand im Bereich der Texterkennung analysierten. Die Ergebnisse zeigen eindeutig glatte Potenzgesetze zwischen der Leistung und der Modellgröße sowie dem Umfang der Trainingsdaten, sofern andere Einflussfaktoren konstant gehalten werden. Zudem haben wir eine großskalige Datensammlung namens REBU-Syn erstellt, die aus 6 Millionen realen und 18 Millionen synthetischen Bildern besteht. Auf Basis unserer entdeckten Skalierungsgesetze und des neuen Datensatzes konnten wir ein Modell für die Szenentexterkennung erfolgreich trainieren, das eine neue State-of-the-Art-Leistung auf sechs gängigen Testbenchmarks erzielt – mit einer durchschnittlichen Top-1-Accuracy von 97,42 %. Die Modelle und der Datensatz sind öffentlich unter https://github.com/large-ocr-model/large-ocr-model.github.io verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp