HyperAIHyperAI
vor 16 Tagen

EAML: Ensemble Self-Attention-basiertes gegenseitiges Lernnetzwerk für die Klassifikation von Dokumentbildern

Souhail Bakkali, Ziheng Ming, Mickael Coustaty, Marçal Rusiñol
EAML: Ensemble Self-Attention-basiertes gegenseitiges Lernnetzwerk für die Klassifikation von Dokumentbildern
Abstract

In der jüngeren Vergangenheit haben komplexe tiefe neuronale Netze erhebliches Interesse bei verschiedenen Aufgaben der Dokumentenverarbeitung wie der Dokumentenbildklassifikation und Dokumentenretrieval hervorgerufen. Da viele Dokumententypen einen charakteristischen visuellen Stil aufweisen, ist die reine Nutzung visueller Merkmale mittels tiefer CNNs zur Klassifikation von Dokumentenbildern auf das Problem einer geringen Unterscheidbarkeit zwischen Klassen sowie hoher struktureller Variabilität innerhalb der Klassen gestoßen. Parallel dazu hat die gemeinsame Lernung von textbasierten Informationen zusammen mit den entsprechenden visuellen Eigenschaften innerhalb eines Dokumentenbildes die Klassifikationsgenauigkeit erheblich verbessert. In diesem Artikel entwerfen wir einen selbst-Attention-basierten Fusionsschritt, der als Baustein in unserem Ensemble-Trainierbaren Netzwerk dient. Er ermöglicht die gleichzeitige Lernung diskriminativer Merkmale aus den Modalitäten Bild und Text während des gesamten Trainingsprozesses. Zudem fördern wir gegenseitiges Lernen durch den Austausch positiver Kenntnisse zwischen den Modalitäten Bild und Text während des Trainings. Diese Einschränkung wird durch die Einführung einer neuen Regularisierungsterm, der truncierten Kullback-Leibler-Divergenz-Regulierung (Tr-KLD-Reg), in das herkömmliche überwachte Lernparadigma realisiert. So weit wir wissen, ist dies das erste Mal, dass ein gegenseitiges Lernansatz zusammen mit einem selbst-Attention-basierten Fusionsschritt zur Klassifikation von Dokumentenbildern eingesetzt wird. Die experimentellen Ergebnisse belegen die Wirksamkeit unseres Ansatzes hinsichtlich der Genauigkeit sowohl für einmodale als auch multimodale Ansätze. Somit übertrifft das vorgeschlagene Ensemble-Modell basierend auf selbst-Attention und gegenseitigem Lernen die bisher besten Ergebnisse bei der Klassifikation auf den Benchmark-Datensätzen RVL-CDIP und Tobacco-3482.

EAML: Ensemble Self-Attention-basiertes gegenseitiges Lernnetzwerk für die Klassifikation von Dokumentbildern | Neueste Forschungsarbeiten | HyperAI