Visuelle und textuelle tiefes Merkmalsfusion für die Klassifikation von Dokumentabbildungen

Das Thema der Klassifikation von Textdokumentenbildern wurde in den vergangenen Jahren umfassend erforscht. Die meisten jüngsten Ansätze bearbeiteten diese Aufgabe durch die gemeinsame Lernung visueller Merkmale von Dokumentenbildern und ihrer entsprechenden textuellen Inhalte. Aufgrund der vielfältigen Strukturen von Dokumentenbildern ist die Extraktion semantischer Informationen aus deren textuellen Inhalten förderlich für Aufgaben der Dokumentenverarbeitung wie Dokumentenretrieval, Informationsextraktion und Textklassifikation. In dieser Arbeit wird eine zweistromige neuronale Architektur vorgeschlagen, um die Klassifikation von Dokumentenbildern durchzuführen. Wir führen eine umfassende Untersuchung der derzeit weit verbreiteten neuronalen Netze sowie der zur Verwendung als Backbone eingesetzten Wort-Embedding-Verfahren durch, um sowohl visuelle als auch textuelle Merkmale aus Dokumentenbildern zu extrahieren. Zudem wird ein gemeinsamer Merkmalslernansatz vorgestellt, der Bildmerkmale und Text-Embeddings als späte Fusion kombiniert. Theoretische Analyse und experimentelle Ergebnisse belegen die Überlegenheit unseres vorgeschlagenen gemeinsamen Merkmalslernverfahrens gegenüber Einzelmodellen. Dieser gemeinsame Lernansatz erreicht eine Klassifikationsgenauigkeit von 97,05 % auf dem großskaligen RVL-CDIP-Datensatz und übertrifft damit die derzeitigen State-of-the-Art-Ergebnisse.