HyperAIHyperAI

Command Palette

Search for a command to run...

TrOCR: Transformer-basierte optische Zeichenerkennung mit vortrainierten Modellen

Minghao Li Tengchao Lv Jingye Chen Lei Cui Yijuan Lu Dinei Florencio Cha Zhang Zhoujun Li Furu Wei

Zusammenfassung

Die Texterkennung ist ein lang bestehendes Forschungsproblem im Bereich der Dokumentendigitalisierung. Herkömmliche Ansätze basieren typischerweise auf Convolutional Neural Networks (CNN) zur Bildverarbeitung und auf Recurrent Neural Networks (RNN) zur zeichenbasierten Textgenerierung. Zudem wird in der Regel ein zusätzlicher Sprachmodell als Nachbearbeitungsschritt benötigt, um die Gesamtgenauigkeit zu verbessern. In diesem Artikel stellen wir einen end-to-end-Texterkennungsansatz vor, der auf vortrainierten Bild-Transformer- und Text-Transformer-Modellen basiert und als TrOCR bezeichnet wird. Der TrOCR-Ansatz nutzt die Transformer-Architektur sowohl für die Bildverstehens- als auch für die Wordpiece-basierte Textgenerierung. Das TrOCR-Modell ist einfach, jedoch wirksam und kann mit großskaligen synthetischen Daten vortrainiert sowie mit menschlich annotierten Datensätzen feinabgestimmt werden. Experimente zeigen, dass das TrOCR-Modell gegenwärtige State-of-the-Art-Modelle bei der Erkennung von gedrucktem, handschriftlichem und Szenentext übertrifft. Die TrOCR-Modelle und der zugehörige Code sind öffentlich unter \url{https://aka.ms/trocr} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TrOCR: Transformer-basierte optische Zeichenerkennung mit vortrainierten Modellen | Paper | HyperAI