HyperAIHyperAI
vor 2 Monaten

PubLayNet: größte je erstellte Datensammlung für die Analyse von Dokumentlayouts

Xu Zhong; Jianbin Tang; Antonio Jimeno Yepes
PubLayNet: größte je erstellte Datensammlung für die Analyse von Dokumentlayouts
Abstract

Die Erkennung des Layouts von unstrukturierten digitalen Dokumenten ist ein wichtiger Schritt beim Parsen dieser Dokumente in ein strukturiertes maschinenlesbares Format für nachgelagerte Anwendungen. Tief neuronalen Netze, die für Computer Vision entwickelt wurden, haben sich als effektive Methode zur Analyse des Layouts von Dokumentbildern bewiesen. Allerdings sind derzeit öffentlich verfügbare Datensätze für Dokumentlayouts um mehrere Größenordnungen kleiner als etablierte Computer-Vision-Datensätze. Modelle müssen durch Transfer Learning von einem Basismodell trainiert werden, das auf einem traditionellen Computer-Vision-Datensatz vortrainiert wurde. In dieser Arbeit entwickeln wir den PubLayNet-Datensatz für die Analyse von Dokumentlayouts durch automatisches Zuordnen der XML-Repräsentationen und des Inhalts von über einer Million PDF-Artikeln, die öffentlich auf PubMed Central verfügbar sind. Die Größe des Datensatzes ist vergleichbar mit etablierten Computer-Vision-Datensätzen und enthält über 360.000 Dokumentbilder, bei denen typische Layoutelemente annotiert sind. Die Experimente zeigen, dass tief neuronale Netze, die auf PubLayNet trainiert wurden, das Layout wissenschaftlicher Artikel genauer erkennen können. Die vortrainierten Modelle bilden auch eine effektivere Basis für Transfer Learning in einem anderen Dokumentbereich. Wir veröffentlichen den Datensatz (https://github.com/ibm-aur-nlp/PubLayNet), um die Entwicklung und Bewertung fortschrittlicherer Modelle für die Analyse von Dokumentlayouts zu unterstützen.