Multimodale Texterkennungsnetzwerke: Interaktive Verbesserungen zwischen visuellen und semantischen Merkmalen

Sprachliches Wissen hat der Erkennung von Szenentexten erhebliche Vorteile gebracht, indem es Semantik bereitstellt, um Zeichenfolgen zu verfeinern. Da sprachliches Wissen jedoch bisher jeweils unabhängig auf der Ausgabefolge angewendet wurde, haben frühere Methoden das semantische Wissen nicht vollständig genutzt, um visuelle Hinweise für die Texterkennung besser zu verstehen. In dieser Arbeit stellen wir eine neuartige Methode vor, den Multi-modAl Text Recognition Network (MATRN), die Interaktionen zwischen visuellen und semantischen Merkmalen ermöglicht, um die Erkennungsleistung zu verbessern. Konkret identifiziert MATRN Paare aus visuellen und semantischen Merkmalen und kodiert räumliche Informationen in die semantischen Merkmale. Auf Basis dieser räumlichen Kodierung werden visuelle und semantische Merkmale durch Bezugnahme auf verwandte Merkmale in der jeweils anderen Modality verbessert. Darüber hinaus fördert MATRN die Integration semantischer Merkmale in visuelle Merkmale, indem visuelle Hinweise, die sich auf das Zeichen beziehen, im Trainingsprozess verdeckt werden. Unsere Experimente zeigen, dass MATRN auf sieben Benchmarks signifikant über den Stand der Technik hinausgeht, während naive Kombinationen beider Modalitäten deutlich geringere Verbesserungen erzielen. Weitere ablativ Studien bestätigen die Wirksamkeit der vorgeschlagenen Komponenten. Die Implementierung ist unter https://github.com/wp03052/MATRN verfügbar.