Erkennung handschriftlicher Texte aus annotierten Daten aus der Crowd

In diesem Artikel untersuchen wir verschiedene Ansätze zur Schulung eines Modells für die Erkennung handschriftlichen Textes, wenn mehrere unvollkommene oder verrauschte Transkriptionen zur Verfügung stehen. Wir betrachten verschiedene Trainingskonfigurationen, wie die Auswahl einer einzelnen Transkription, die Beibehaltung aller Transkriptionen oder die Berechnung einer aggregierten Transkription aus allen verfügbaren Annotationen. Zudem evaluieren wir den Einfluss einer qualitätsbasierten Datenauswahl, bei der Proben mit geringer Übereinstimmung aus dem Trainingsset entfernt werden. Unsere Experimente werden an städtischen Registerdaten der Stadt Belfort (Frankreich) durchgeführt, die zwischen 1790 und 1946 verfasst wurden. Die Ergebnisse zeigen, dass die Erstellung einer Konsens-Transkription oder das Training auf mehreren Transkriptionen gute Alternativen darstellen. Die Auswahl von Trainingsbeispielen basierend auf dem Grad der Übereinstimmung zwischen den Annotationen führt jedoch zu einer Verzerrung der Trainingsdaten und verbessert die Ergebnisse nicht. Unser Datensatz ist öffentlich auf Zenodo verfügbar: https://zenodo.org/record/8041668.