HyperAIHyperAI
vor 2 Monaten

PosFormer: Erkennen komplexer handschriftlicher mathematischer Ausdrücke mit Position Forest Transformer

Guan, Tongkun ; Lin, Chengyu ; Shen, Wei ; Yang, Xiaokang
PosFormer: Erkennen komplexer handschriftlicher mathematischer Ausdrücke mit Position Forest Transformer
Abstract

Die Erkennung handschriftlicher mathematischer Ausdrücke (HMER) hat vielfältige Anwendungen in Szenarien der Mensch-Maschine-Interaktion, wie z.B. digitalisierte Bildung und automatisierte Büros. Kürzlich wurden sequenzbasierte Modelle mit Encoder-Decoder-Architekturen häufig eingesetzt, um diese Aufgabe zu lösen, indem sie LaTeX-Sequenzen von Ausdrucksbildern direkt vorhersagen. Allerdings lernen diese Methoden die durch LaTeX bereitgestellten Syntaxregeln nur implizit, was bei komplexen strukturellen Beziehungen und diversen Schreibstilen dazu führen kann, dass die Position und hierarchische Beziehung zwischen Symbolen nicht korrekt beschrieben werden. Um dieser Herausforderung zu begegnen, schlagen wir einen positionsbewussten Waldtransformer (PosFormer) für HMER vor, der zwei Aufgaben gleichzeitig optimiert: die Erkennung von Ausdrücken und die Erkennung von Positionen. Dies ermöglicht es explizit, eine positionsbewusste Darstellung der Symbolmerkmale zu erlernen.Speziell haben wir zunächst einen Positions-Wald entwickelt, der den mathematischen Ausdruck als Waldstruktur modelliert und die relativen Positionalbeziehungen zwischen den Symbolen analysiert. Ohne zusätzliche Annotationen wird jedem Symbol im Wald ein Positionsidentifikator zugewiesen, um dessen relative räumliche Position darzustellen. Zweitens schlagen wir ein Modul zur impliziten Aufmerksamkeitskorrektur vor, das in der sequenzbasierten Decoder-Architektur eine präzise Erfassung der Aufmerksamkeit für HMER ermöglicht.Ausführliche Experimente bestätigen die Überlegenheit des PosFormers, der konsistent bessere Ergebnisse als die bislang besten Methoden erzielt: Eine Steigerung um 2,03%/1,22%/2,00%, 1,83% und 4,62% auf den Datensätzen CROHME 2014/2016/2019 (single-line), M2E (multi-line) und MNE (komplex), ohne zusätzliche Verzögerungen oder Rechenkosten. Der Quellcode ist unter https://github.com/SJTU-DeepVisionLab/PosFormer verfügbar.