HyperAIHyperAI
vor 17 Tagen

Few-shot pixelgenaue Dokumentenlayout-Segmentation mittels dynamischer Instanzgenerierung und lokaler Schwellenwertbildung

{Gian Luca Foresti, Emanuela Colombi, Claudio Piciarelli, Silvia Zottin, Axel De Nardin}
Abstract

Im Laufe der Jahre hat die Geisteswissenschaftlergemeinschaft zunehmend die Schaffung von künstlichen Intelligenz-Rahmenwerken gefordert, um die Erforschung des kulturellen Erbes zu unterstützen. Die Dokumentenlayout-Segmentation, die darauf abzielt, die verschiedenen strukturellen Komponenten einer Dokumentenseite zu identifizieren, ist dabei eine besonders interessante Aufgabe, die diesem Trend entspricht, insbesondere im Kontext handschriftlicher Texte. Obwohl es bereits zahlreiche wirksame Ansätze für dieses Problem gibt, basieren sie alle auf großen Datenmengen zur Schulung der zugrundeliegenden Modelle – eine Voraussetzung, die in der Praxis selten erfüllbar ist. Denn die Erzeugung der Ground-Truth-Segmentation mit der erforderlichen Pixelgenauigkeit ist ein äußerst zeitaufwendiger Prozess, der oft ein gewisses Fachwissen über die betreffenden Dokumente erfordert. Aus diesem Grund stellen wir in diesem Artikel einen effektiven Few-Shot-Lernrahmen für die Dokumentenlayout-Segmentation vor, der auf zwei neuartigen Komponenten beruht: einer dynamischen Instanzgenerierung und einem Segmentierungsverfeinerungsmodul. Unser Ansatz erreicht Leistungen, die mit dem aktuellen Stand der Technik auf dem etablierten Diva-HisDB-Datensatz vergleichbar sind, und benötigt dabei lediglich einen Bruchteil der verfügbaren Daten.