Beschriftung, Schneiden, Gruppierung: Eine effiziente Textzeilen-Segmentierungsmethode für mittelalterliche Handschriften

Dieses Papier stellt eine neue Methode zur Textzeilenextraktion vor, die tiefenlernenbasierte Vorabklassifizierung und moderne Segmentierungsverfahren integriert. Die Textzeilenextraktion in komplexen handschriftlichen Dokumenten stellt selbst für die modernsten Computer Vision-Algorithmen eine erhebliche Herausforderung dar. Historische Manuskripte sind insbesondere eine schwierige Klasse von Dokumenten, da sie verschiedene Formen von Störungen aufweisen, wie Verwitterung, Durchschein, Zwischenzeilenglossen und verzierte Schriften. In dieser Arbeit schlagen wir eine neuartige Methode vor, die semantische Segmentierung auf Pixel-Ebene als Zwischenschritt verwendet, gefolgt von einem Schritt der Textzeilenextraktion. Wir haben die Leistung unserer Methode anhand eines aktuellen Datensatzes herausfordernder mittelalterlicher Manuskripte gemessen und übertroffen dabei die Stand der Technik durch eine Fehlerreduzierung von 80,7 %. Darüber hinaus zeigen wir die Effektivität unseres Ansatzes an verschiedenen anderen Datensätzen mit unterschiedlichen Schriftarten. Unser Beitrag ist daher zweigeteilt. Erstens demonstrieren wir, dass semantische Pixel-Segmentierung als starke Rauschunterdrückungsvorverarbeitungsschritt vor der Textzeilenextraktion verwendet werden kann. Zweitens führen wir einen neuen, einfachen und robusten Algorithmus ein, der die hochwertige semantische Segmentierung nutzt, um eine Textzeilenextraktionsleistung von 99,42 % Linien-Übereinstimmungsrate (line IU) bei einem anspruchsvollen Datensatz zu erreichen.