EAML: Ensemble Self-Attention-basiertes gegenseitiges Lernnetzwerk für die Klassifikation von Dokumentbildern

In der jüngeren Vergangenheit haben komplexe tiefe neuronale Netze erhebliches Interesse bei verschiedenen Aufgaben der Dokumentenverarbeitung wie der Dokumentenbildklassifikation und Dokumentenretrieval hervorgerufen. Da viele Dokumententypen einen charakteristischen visuellen Stil aufweisen, ist die reine Nutzung visueller Merkmale mittels tiefer CNNs zur Klassifikation von Dokumentenbildern auf das Problem einer geringen Unterscheidbarkeit zwischen Klassen sowie hoher struktureller Variabilität innerhalb der Klassen gestoßen. Parallel dazu hat die gemeinsame Lernung von textbasierten Informationen zusammen mit den entsprechenden visuellen Eigenschaften innerhalb eines Dokumentenbildes die Klassifikationsgenauigkeit erheblich verbessert. In diesem Artikel entwerfen wir einen selbst-Attention-basierten Fusionsschritt, der als Baustein in unserem Ensemble-Trainierbaren Netzwerk dient. Er ermöglicht die gleichzeitige Lernung diskriminativer Merkmale aus den Modalitäten Bild und Text während des gesamten Trainingsprozesses. Zudem fördern wir gegenseitiges Lernen durch den Austausch positiver Kenntnisse zwischen den Modalitäten Bild und Text während des Trainings. Diese Einschränkung wird durch die Einführung einer neuen Regularisierungsterm, der truncierten Kullback-Leibler-Divergenz-Regulierung (Tr-KLD-Reg), in das herkömmliche überwachte Lernparadigma realisiert. So weit wir wissen, ist dies das erste Mal, dass ein gegenseitiges Lernansatz zusammen mit einem selbst-Attention-basierten Fusionsschritt zur Klassifikation von Dokumentenbildern eingesetzt wird. Die experimentellen Ergebnisse belegen die Wirksamkeit unseres Ansatzes hinsichtlich der Genauigkeit sowohl für einmodale als auch multimodale Ansätze. Somit übertrifft das vorgeschlagene Ensemble-Modell basierend auf selbst-Attention und gegenseitigem Lernen die bisher besten Ergebnisse bei der Klassifikation auf den Benchmark-Datensätzen RVL-CDIP und Tobacco-3482.