STN-OCR: Ein einzelnes neuronales Netzwerk für Texterkennung und Textidentifikation

Die Erkennung und Identifizierung von Text in natürlichen Szenebildern ist eine herausfordernde Aufgabe, die noch nicht vollständig gelöst ist. In den letzten Jahren wurden mehrere neue Systeme vorgeschlagen, die zumindest eine der beiden Teilaufgaben (Texterkennung und Textidentifizierung) angehen. In dieser Arbeit stellen wir STN-OCR vor, einen Schritt hin zu halbüberwachten neuronalen Netzen für die Texterkennung in natürlichen Szenen, das end-to-end optimiert werden kann. Im Gegensatz zu den meisten bestehenden Arbeiten, die aus mehreren tiefen neuronalen Netzen und verschiedenen Vorverarbeitungsschritten bestehen, schlagen wir ein einzelnes tiefes neuronales Netzwerk vor, das lernt, Text in natürlichen Bildern auf halbüberwachte Weise zu erkennen und zu identifizieren. STN-OCR ist ein Netzwerk, das ein räumliches Transformer-Netzwerk integriert und gemeinsam lernt, welches lernen kann, Textbereiche in einem Bild zu erkennen, sowie ein Texterkennungsnetzwerk, das die identifizierten Textbereiche verarbeitet und ihren textuellen Inhalt erkennt. Wir untersuchen das Verhalten unseres Modells bei einer Reihe verschiedener Aufgaben (Erkennung und Identifizierung von Zeichen und Textzeilen). Experimentelle Ergebnisse auf öffentlichen Benchmark-Datensätzen zeigen die Fähigkeit unseres Modells, eine Vielzahl von unterschiedlichen Aufgaben zu bewältigen, ohne erhebliche Änderungen an seiner Gesamtstruktur vorzunehmen.