HyperAIHyperAI
vor 2 Monaten

U-DIADS-Bib: ein umfassendes und few-shot Pixel-präzises Datensatz für die Layoutanalyse alter Handschriften

Zottin, Silvia ; De Nardin, Axel ; Colombi, Emanuela ; Piciarelli, Claudio ; Pavan, Filippo ; Foresti, Gian Luca
U-DIADS-Bib: ein umfassendes und few-shot Pixel-präzises Datensatz für die Layoutanalyse alter Handschriften
Abstract

Die Dokumentenlayoutanalyse, die sich mit der Identifizierung verschiedener semantischer Bereiche innerhalb einer Dokumentenseite befasst, ist ein Thema von großem Interesse sowohl für Informatiker als auch für Geisteswissenschaftler. Für die Ersteren stellt sie einen grundlegenden Schritt zur weiteren Analyse dar, während sie für die Letzteren ein mächtiges Werkzeug zur Verbesserung und Ermittlung der Dokumentstudien bildet. Viele der derzeit in der Literatur vorhandenen Arbeiten, insbesondere in Bezug auf verfügbare Datensätze, erfüllen jedoch die Anforderungen beider Welten nicht und neigen besonders zu den Bedürfnissen und gängigen Praktiken der Informatikseite, was zu Ressourcen führt, die nicht repräsentativ für die tatsächlichen Bedürfnisse der Geisteswissenschaften sind. Aus diesem Grund stellt diese Arbeit U-DIADS-Bib vor, einen neuen, pixelgenauen, nicht überlappenden und geräuschfreien Datensatz zur Dokumentenlayoutanalyse, der im engen Zusammenarbeit zwischen Spezialisten aus den Bereichen Computer Vision und Geisteswissenschaften entwickelt wurde. Des Weiteren schlagen wir eine neue computergestützte Segmentierungs Pipeline vor, um die Belastung durch den zeitaufwendigen Prozess manueller Annotation zu reduzieren, der für die Erstellung der Ground-Truth-Segmentierungskarten notwendig ist. Abschließend präsentieren wir eine standardisierte Few-Shot-Version des Datensatzes (U-DIADS-BibFS), deren Ziel es ist, die Entwicklung von Modellen und Lösungen zu fördern, die diese Aufgabe mit möglichst wenigen Stichproben bewältigen können. Dies würde eine effektivere Nutzung in realistischen Szenarien ermöglichen, wo das Sammeln einer großen Anzahl von Segmentierungen oft nicht praktikabel ist.