Command Palette
Search for a command to run...
Analyse von Faltungsneuronalen Netzen für die Klassifizierung von Dokumentbildern
Analyse von Faltungsneuronalen Netzen für die Klassifizierung von Dokumentbildern
Chris Tensmeyer Tony Martinez
Zusammenfassung
Faltungsschichtneuronale Netze (CNNs) sind die neuesten Modelle für Klassifizierungsaufgaben von Dokumentbildern. Viele dieser Ansätze basieren jedoch auf Parametern und Architekturen, die für die Klassifizierung von natürlichen Bildern entwickelt wurden, welche sich von Dokumentbildern unterscheiden. Wir hinterfragen, ob dies angemessen ist, und führen eine umfangreiche empirische Studie durch, um herauszufinden, welche Aspekte der CNNs die Leistung bei der Klassifizierung von Dokumentbildern am stärksten beeinflussen. Unter anderem übertreffen wir den aktuellen Stand der Technik im RVL-CDIP-Datensatz durch die Verwendung von Schertransformdatenverstärkung und einer Architektur, die für größere Eingangsbilder ausgelegt ist. Zudem analysieren wir die gelernten Merkmale und finden Hinweise darauf, dass CNNs, die auf dem RVL-CDIP-Datensatz trainiert wurden, regionspezifische Layoutmerkmale lernen.