Effiziente Klassifikation von Dokumentbildern mittels regionsbasierter Graph Neural Networks

Die Klassifizierung von Dokumentbildern bleibt ein populäres Forschungsfeld, da sie in zahlreichen unternehmensübergreifenden Anwendungen verschiedener Branchen kommerzialisiert werden kann. In jüngster Zeit haben Fortschritte bei großen vortrainierten Modellen für Computer Vision und Sprachverarbeitung sowie bei graphenbasierten neuronalen Netzen der Klassifizierung von Dokumentbildern eine Vielzahl neuer Werkzeuge zur Verfügung gestellt. Allerdings erfordern die Nutzung solcher großer vortrainierter Modelle in der Regel erhebliche Rechenressourcen, was die Kostenersparnisvorteile der automatischen Dokumentbildklassifizierung teilweise zunichte machen könnte. In diesem Paper stellen wir einen effizienten Ansatz zur Klassifizierung von Dokumentbildern vor, der Graphen-Convolutional Neural Networks (GCNNs) nutzt und sowohl textuelle, visuelle als auch Layout-Informationen des Dokuments integriert. Wir haben unseren vorgeschlagenen Algorithmus rigoros an mehreren State-of-the-Art-Modellen für Vision und Sprache auf öffentlich verfügbaren Datensätzen sowie auf einem realen Datensatz zur Klassifizierung von Versicherungsdokumenten evaluiert. Die empirischen Ergebnisse sowohl auf öffentlich zugänglichen als auch auf realen Datensätzen zeigen, dass unsere Methode nahezu state-of-the-art (SOTA)-Leistung erzielt, dabei aber deutlich geringere Rechenressourcen und kürzere Trainings- und Inferenzzeiten benötigt. Dies führt zu Lösungen mit signifikant besseren Kostenvorteilen, insbesondere bei skalierbaren Einsatzszenarien in Unternehmensanwendungen. Die Ergebnisse belegen, dass unser Algorithmus eine Klassifizierungsleistung erreicht, die nahe an der SOTA liegt. Zudem liefern wir umfassende Vergleiche hinsichtlich der benötigten Rechenressourcen, Modellgrößen, Trainings- und Inferenzzeiten zwischen unserem Ansatz und den Baselines. Darüber hinaus analysieren wir die Kosten pro Bild unter Verwendung unseres Verfahrens im Vergleich zu den Baselines.