HyperAIHyperAI
vor 2 Monaten

DTrOCR: Decoder-only Transformer für optische Zeichenerkennung

Fujitake, Masato
DTrOCR: Decoder-only Transformer für optische Zeichenerkennung
Abstract

Typische Texterkennungsmethoden basieren auf einer Encoder-Decoder-Struktur, bei der der Encoder Merkmale aus einem Bild extrahiert und der Decoder daraus das erkannte Textsignal generiert. In dieser Studie schlagen wir eine einfachere und effektivere Methode für die Texterkennung vor, bekannt als der Decoder-only Transformer für optische Zeichenerkennung (DTrOCR). Diese Methode verwendet einen rein dekodierenden Transformer, um von einem generativen Sprachmodell zu profitieren, das auf einem großen Korpus vortrainiert wurde. Wir untersuchten, ob ein generatives Sprachmodell, das in der natürlichen Sprachverarbeitung erfolgreich eingesetzt wurde, auch effektiv für die Texterkennung in der Computer Vision sein kann. Unsere Experimente zeigten, dass DTrOCR sowohl bei der Erkennung gedruckter, handschriftlicher als auch szenischer Texte in englischer und chinesischer Sprache deutlich bessere Ergebnisse als aktuelle state-of-the-art-Methoden erzielt.

DTrOCR: Decoder-only Transformer für optische Zeichenerkennung | Neueste Forschungsarbeiten | HyperAI