HyperAIHyperAI

Command Palette

Search for a command to run...

DTrOCR: Decoder-only Transformer für optische Zeichenerkennung

Fujitake Masato

Zusammenfassung

Typische Texterkennungsmethoden basieren auf einer Encoder-Decoder-Struktur, bei der der Encoder Merkmale aus einem Bild extrahiert und der Decoder daraus das erkannte Textsignal generiert. In dieser Studie schlagen wir eine einfachere und effektivere Methode für die Texterkennung vor, bekannt als der Decoder-only Transformer für optische Zeichenerkennung (DTrOCR). Diese Methode verwendet einen rein dekodierenden Transformer, um von einem generativen Sprachmodell zu profitieren, das auf einem großen Korpus vortrainiert wurde. Wir untersuchten, ob ein generatives Sprachmodell, das in der natürlichen Sprachverarbeitung erfolgreich eingesetzt wurde, auch effektiv für die Texterkennung in der Computer Vision sein kann. Unsere Experimente zeigten, dass DTrOCR sowohl bei der Erkennung gedruckter, handschriftlicher als auch szenischer Texte in englischer und chinesischer Sprache deutlich bessere Ergebnisse als aktuelle state-of-the-art-Methoden erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DTrOCR: Decoder-only Transformer für optische Zeichenerkennung | Paper | HyperAI