HyperAIHyperAI

Command Palette

Search for a command to run...

DocXClassifier: Hochleistungsfähiges erklärbares tiefes Netzwerk für die Klassifikation von Dokumentenbildern

Sheraz Ahmed Andreas Dengel Stefan Agne Saifullah

Zusammenfassung

Convolutional Neural Networks (ConvNets) wurden intensiv für die Klassifikation von Dokumentenbildern erforscht und sind für ihre herausragende Leistungsfähigkeit bei der einmodalen, bildbasierten Dokumentenklassifikation bekannt. In letzter Zeit hat sich jedoch ein plötzlicher Wandel im Forschungsfeld zugunsten multimodaler Ansätze vollzogen, die gleichzeitig visuelle und textuelle Merkmale von Dokumenten lernen. Obwohl dies zu erheblichen Fortschritten geführt hat, ist gleichzeitig das Interesse an der Verbesserung reiner ConvNet-basierter Ansätze zurückgegangen. Dies ist jedoch unerwünscht, da viele der multimodalen Ansätze ConvNets weiterhin als visuellen Backbone verwenden, weshalb die Verbesserung von ConvNets entscheidend für die Weiterentwicklung dieser Ansätze ist. In diesem Artikel präsentieren wir DocXClassifier, einen auf ConvNets basierenden Ansatz, der durch den Einsatz moderner Modellentwurfsprinzipien sowie fortschrittlicher Datenaugmentation- und Trainingsstrategien nicht nur erhebliche Leistungssteigerungen bei der bildbasierten Dokumentenklassifikation erzielt, sondern auch einige kürzlich vorgeschlagene multimodale Ansätze übertrifft. Darüber hinaus ist DocXClassifier in der Lage, Aufmerksamkeitskarten zu generieren, die der Funktionsweise von Transformers ähneln, wodurch er inhärent interpretierbar ist – eine Eigenschaft, die bei früheren bildbasierten Klassifikationsmodellen fehlte. Unser Ansatz erreicht mit einer Top-1-Klassifikationsgenauigkeit von 94,17 % und 95,57 % jeweils auf den beiden etablierten Dokumenten-Datensätzen RVL-CDIP und Tobacco3482 neue Höchstleistungen bei der bildbasierten Klassifikation. Zudem etabliert er einen neuen Rekord mit einer höchsten Bildklassifikationsgenauigkeit von 90,14 % auf Tobacco3482 ohne Transferlernen von RVL-CDIP. Schließlich kann unser vorgeschlagener Modell als leistungsfähiger visueller Backbone für zukünftige multimodale Ansätze dienen, da er im Vergleich zu bestehenden Ansätzen wesentlich reichhaltigere visuelle Merkmale liefert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp