Dokumentenbildklassifizierung mit In-Domain-Transfer-Learning und gestapelter Generalisierung tiefer konvolutiver Neuronaler Netze

In dieser Arbeit wird ein regionenbasierter Rahmen für tiefes Faltungsnetzwerk (Deep Convolutional Neural Network) vorgeschlagen, um die Struktur von Dokumenten zu lernen. Der Beitrag dieser Arbeit besteht in der effizienten Schulung regionenbasierter Klassifizierer und der wirksamen Ensemblebildung für die Klassifizierung von Dokumentbildern. Eine primäre Ebene des „inter-domain“ Transfer Learnings wird durch den Export von Gewichten aus einer vorab trainierten VGG16-Architektur auf dem ImageNet-Datensatz verwendet, um einen Dokumentklassifizierer auf gesamten Dokumentbildern zu trainieren. Durch die Ausnutzung der Natur des regionenbasierten Einflussmodellierens wird eine sekundäre Ebene des „intra-domain“ Transfer Learnings zur schnellen Schulung von Tiefen Lernalgorithmen für Bildsegmente eingesetzt. Schließlich wird eine Ensemblebildung basierend auf gestapelten Generalisierungen genutzt, um die Vorhersagen der grundlegenden tiefen Neuronalen Netzwerke zu kombinieren. Die vorgeschlagene Methode erreicht einen Stand-der-Technik-genauigkeit von 92,2 % auf dem bekannten RVL-CDIP-Dokumentbild-Datensatz, was die Benchmarks bestehender Algorithmen übertrifft.