Neubewertung von Textzeilen-Erkennungsmodellen

In diesem Artikel untersuchen wir das Problem der Textzeilen-Erkennung. Im Gegensatz zu den meisten Ansätzen, die auf spezifische Domänen wie Szenentext oder handschriftliche Dokumente abzielen, betrachten wir das allgemeine Problem der Entwicklung einer universellen Architektur, die Text aus beliebigen Bildern – unabhängig von der Quelle oder Eingabemodalität – extrahieren kann. Wir analysieren zwei Dekoder-Familien (Connectionist Temporal Classification, CTC und Transformer) sowie drei Encoder-Module (Bidirektionale LSTMs, Self-Attention und GRCLs) und führen umfangreiche Experimente durch, um ihre Genauigkeit und Leistungsfähigkeit anhand weit verbreiteter öffentlicher Datensätze für Szenentext und handschriftliche Texte zu vergleichen. Wir stellen fest, dass eine Kombination, die in der Literatur bisher nur wenig Beachtung gefunden hat – nämlich ein Self-Attention-Encoder in Kombination mit einem CTC-Dekoder –, insbesondere dann, wenn sie mit einem externen Sprachmodell und sowohl auf öffentlichen als auch internen Datensätzen trainiert wird, sowohl hinsichtlich Genauigkeit als auch hinsichtlich rechnerischer Komplexität alle anderen Ansätze übertrifft. Im Gegensatz zu den häufiger verwendeten Transformer-basierten Modellen kann diese Architektur Eingaben beliebiger Länge verarbeiten, was eine zwingende Anforderung für die universelle Zeilen-Erkennung darstellt. Anhand eines internen Datensatzes, der aus mehreren Quellen zusammengestellt wurde, zeigen wir zudem die Grenzen der derzeitigen öffentlichen Datensätze auf, was die Bewertung der Genauigkeit von Textzeilen-Erkennern betrifft: Die relativ schmale Verteilung der Bildbreite und der Sequenzlänge ermöglicht es nicht, die Degradation der Leistungsfähigkeit des Transformer-Ansatzes bei der Transkription langer Textzeilen zu beobachten.