HyperAIHyperAI
vor 11 Tagen

DocXClassifier: Hochleistungsfähiges erklärbares tiefes Netzwerk für die Klassifikation von Dokumentenbildern

{Sheraz Ahmed, Andreas Dengel, Stefan Agne, Saifullah}
Abstract

Convolutional Neural Networks (ConvNets) wurden intensiv für die Klassifikation von Dokumentenbildern erforscht und sind für ihre herausragende Leistungsfähigkeit bei der einmodalen, bildbasierten Dokumentenklassifikation bekannt. In letzter Zeit hat sich jedoch ein plötzlicher Wandel im Forschungsfeld zugunsten multimodaler Ansätze vollzogen, die gleichzeitig visuelle und textuelle Merkmale von Dokumenten lernen. Obwohl dies zu erheblichen Fortschritten geführt hat, ist gleichzeitig das Interesse an der Verbesserung reiner ConvNet-basierter Ansätze zurückgegangen. Dies ist jedoch unerwünscht, da viele der multimodalen Ansätze ConvNets weiterhin als visuellen Backbone verwenden, weshalb die Verbesserung von ConvNets entscheidend für die Weiterentwicklung dieser Ansätze ist. In diesem Artikel präsentieren wir DocXClassifier, einen auf ConvNets basierenden Ansatz, der durch den Einsatz moderner Modellentwurfsprinzipien sowie fortschrittlicher Datenaugmentation- und Trainingsstrategien nicht nur erhebliche Leistungssteigerungen bei der bildbasierten Dokumentenklassifikation erzielt, sondern auch einige kürzlich vorgeschlagene multimodale Ansätze übertrifft. Darüber hinaus ist DocXClassifier in der Lage, Aufmerksamkeitskarten zu generieren, die der Funktionsweise von Transformers ähneln, wodurch er inhärent interpretierbar ist – eine Eigenschaft, die bei früheren bildbasierten Klassifikationsmodellen fehlte. Unser Ansatz erreicht mit einer Top-1-Klassifikationsgenauigkeit von 94,17 % und 95,57 % jeweils auf den beiden etablierten Dokumenten-Datensätzen RVL-CDIP und Tobacco3482 neue Höchstleistungen bei der bildbasierten Klassifikation. Zudem etabliert er einen neuen Rekord mit einer höchsten Bildklassifikationsgenauigkeit von 90,14 % auf Tobacco3482 ohne Transferlernen von RVL-CDIP. Schließlich kann unser vorgeschlagener Modell als leistungsfähiger visueller Backbone für zukünftige multimodale Ansätze dienen, da er im Vergleich zu bestehenden Ansätzen wesentlich reichhaltigere visuelle Merkmale liefert.

DocXClassifier: Hochleistungsfähiges erklärbares tiefes Netzwerk für die Klassifikation von Dokumentenbildern | Neueste Forschungsarbeiten | HyperAI