HyperAIHyperAI

Command Palette

Search for a command to run...

Volle Seiten-Handschriftenerkennung mittels Bild-zu-Sequenz-Extraktion

Sumeet S. Singh Sergey Karayev

Zusammenfassung

Wir präsentieren eine auf neuronalen Netzen basierende Architektur für die Erkennung handschriftlichen Textes (Handwritten Text Recognition, HTR), die trainiert werden kann, um ganze Seiten handschriftlichen oder gedruckten Textes ohne Bildsegmentierung zu erkennen. Aufgrund ihrer Image-to-Sequence-Architektur kann das Modell Textelemente innerhalb eines Bildes extrahieren und diese korrekt sequenzieren, ohne Einschränkungen hinsichtlich Orientierung, Layout oder Größe von Text- und Nicht-Text-Bereichen zu erfordern. Zudem kann das Modell zusätzlich zur Texterkennung auch zusätzliche Markup-Informationen hinsichtlich Formatierung, Layout und Inhalt generieren. Durch die Verwendung eines zeichenbasierten Vokabulars wird die Erkennung von Sprache und Fachterminologie beliebiger Themenbereiche ermöglicht. Das Modell erreicht eine neue State-of-the-Art-Leistung bei der Absatz-Erkennung auf dem IAM-Datensatz. Bei der Bewertung von Scans realweltlicher, freiformiger handschriftlicher Antwortblätter – geprägt durch gekrümmte und schräge Linien, Zeichnungen, Tabellen, Mathematik-, Chemie- und andere Sonderzeichen – übertrifft es alle kommerziell verfügbaren HTR-Cloud-APIs. Die Architektur ist bereits in Produktion im Rahmen einer kommerziellen Webanwendung implementiert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp