ICDAR 2024 Wettbewerb zur Few-Shot- und Many-Shot-Layout-Segmentation von alten Manuskripten (SAM)
{Claudio Piciarelli Emanuela Colombi Gian Luca Foresti Axel De Nardin Silvia Zottin}
Abstract
Die Layout-Analyse ist eine zentrale Aufgabe der Dokumentenbildanalyse, insbesondere bei alten Handschriften. Sie bildet eine wesentliche Grundlage für die Vereinfachung nachfolgender Aufgaben wie die optische Zeichenerkennung und die automatisierte Transkription. Ein zentrales Hindernis in diesem Kontext stellt jedoch die knappe Verfügbarkeit von Ground-Truth-Daten dar, da deren Erstellung äußerst zeitaufwendig ist. Dennoch basieren zahlreiche Ansätze zur Bewältigung dieser Herausforderung stark auf einem vollständig überwachten Lernparadigma, was in der Praxis eine seltene Situation darstellt. Aus diesem Grund stellen wir mit dieser Challenge die Aufgabe, diese Aufgabe mit einem Few-Shot-Lernansatz zu lösen, wobei lediglich drei Bilder für das Training zur Verfügung gestellt werden. Der Wettbewerbsdatensatz, der als U-DIADS-Bib bezeichnet wird, umfasst vier unterschiedliche alte Handschriften mit heterogenen Layoutstrukturen, unterschiedlichem Degradationsgrad und verschiedenen verwendeten Sprachen. Diese Vielfalt verleiht der Herausforderung besonderen Reiz und Komplexität. Zudem ermöglichen wir die Teilnahme am Wettbewerb auch mit traditionellen Many-Shot-Lernansätzen, für die der gesamte Trainingsdatensatz von U-DIADS-Bib zur Verfügung gestellt wurde.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| document-layout-analysis-on-u-diads-bib | L3i++ | Class Average IoU (Few-shot setting): 61.10 |
| document-layout-analysis-on-u-diads-bib | CNKI | Class Average IoU: 77.80 Class Average IoU (Few-shot setting): 65.90 |
| document-layout-analysis-on-u-diads-bib | VAI-OCR | Class Average IoU: 70.70 Class Average IoU (Few-shot setting): 70.00 |
| document-layout-analysis-on-u-diads-bib | CV-Group | Class Average IoU: 83.40 Class Average IoU (Few-shot setting): 78.40 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.