Automatische Metadatenextraktion unter Einbeziehung visueller Merkmale aus gescannten elektronischen Dissertationen und Thesis

Elektronische Dissertationen und Thesis (ETDs) enthalten fachspezifisches Wissen, das für zahlreiche Aufgaben digitaler Bibliotheken genutzt werden kann, beispielsweise zur Analyse von Zitiernetzwerken oder zur Vorhersage von Forschungstrends. Die automatisierte Metadatenextraktion ist entscheidend für die Entwicklung skalierbarer Suchmaschinen für digitale Bibliotheken. Die meisten bestehenden Methoden sind für geburtshafte digitale Dokumente konzipiert und versagen häufig bei der Metadatenextraktion aus gescannten Dokumenten, wie sie beispielsweise bei ETDs vorliegen. Traditionelle Sequenzmarkierungsmethoden stützen sich hauptsächlich auf textbasierte Merkmale. In diesem Artikel stellen wir ein bedingtes zufälliges Feld (CRF)-Modell vor, das textbasierte und visuelle Merkmale kombiniert. Um die Robustheit unseres Modells zu überprüfen, erweiterten wir eine bestehende Korpusdatenbank und erstellten eine neue Ground-Truth-Korpus bestehend aus 500 Titelseiten von ETDs mit von Menschen validierten Metadaten. Unsere Experimente zeigen, dass das CRF-Modell mit visuellen Merkmalen sowohl eine heuristische Methode als auch ein CRF-Modell mit ausschließlich textbasierten Merkmalen übertrifft. Das vorgeschlagene Modell erreichte F1-Maße zwischen 81,3 % und 96 % für sieben Metadatenfelder. Die Datensätze und der Quellcode sind öffentlich über Google Drive (https://tinyurl.com/y8kxzwrp) und eine GitHub-Repository (https://github.com/lamps-lab/ETDMiner/tree/master/etd_crf) zugänglich.