Die Fehlerhälfte schneiden: Untersuchung sehr tiefer CNN und fortschrittlicher Trainingsstrategien für die Klassifizierung von Dokumentenbildern

Wir präsentieren eine umfassende Untersuchung von aktuellen Deep-Learning-Architekturen, -Algorithmen und -Strategien für die Aufgabe der Dokumentenbildklassifizierung, um den Fehler schließlich mehr als zur Hälfte zu reduzieren. Bestehende Ansätze, wie der DeepDocClassifier, verwenden Standard-Architekturen von Faltungsnetzen mit Transfer-Lernen aus dem Bereich der Objekterkennung. Der Beitrag des Papers ist dreifach: Erstens untersucht es neu eingeführte sehr tiefe neuronale Netzarchitekturen (GoogLeNet, VGG, ResNet) unter Verwendung von Transfer-Lernen (von realen Bildern). Zweitens schlägt es Transfer-Lernen von einer großen Menge an Dokumentenbildern vor, nämlich 400.000 Dokumente. Drittens analysiert es den Einfluss der Menge an Trainingsdaten (Dokumentenbilder) und anderer Parameter auf die Klassifikationsfähigkeiten. Wir verwenden zwei Datensätze, den Tobacco-3482 und den groß angelegten RVL-CDIP-Datensatz. Für den Tobacco-3482-Datensatz erreichen wir eine Genauigkeit von 91,13%, während frühere Ansätze nur 77,6% erreichen. Somit wird eine relative Fehlerreduzierung von mehr als 60% erzielt. Für den großen Datensatz RVL-CDIP wird eine Genauigkeit von 90,97% erreicht, was einer relativen Fehlerreduzierung von 11,5% entspricht.