HyperAIHyperAI
vor 2 Monaten

Wenn Zählen HMER begegnet: Ein zählbewusstes Netzwerk für die Erkennung von handschriftlichen mathematischen Ausdrücken

Li, Bohan ; Yuan, Ye ; Liang, Dingkang ; Liu, Xiao ; Ji, Zhilong ; Bai, Jinfeng ; Liu, Wenyu ; Bai, Xiang
Wenn Zählen HMER begegnet: Ein zählbewusstes Netzwerk für die Erkennung von handschriftlichen mathematischen Ausdrücken
Abstract

Kürzlich haben die meisten Methoden zur Erkennung handschriftlicher mathematischer Ausdrücke (HMER) Encoder-Decoder-Netze eingesetzt, die mit Hilfe des Aufmerksamkeitsmechanismus direkt Markup-Sequenzen aus Formelbildern vorhersagen. Allerdings können solche Methoden bei komplex strukturierten Formeln oder langen Markup-Sequenzen versagen, da die Aufmerksamkeitsresultate oft aufgrund der großen Varianz von Schreibstilen oder räumlichen Anordnungen ungenau sind. Um dieses Problem zu mildern, schlagen wir ein unkonventionelles Netzwerk für HMER vor, das Counting-Aware Network (CAN) genannt wird und zwei Aufgaben gemeinsam optimiert: HMER und Symbolzählung.Speziell haben wir ein schwach überwachtes Zählmodul entwickelt, das ohne symbolbezogene Positionsanotations die Anzahl jeder Symbolklasse vorhersagen kann. Dieses Modul integrieren wir dann in ein typisches aufmerksamkeitsbasiertes Encoder-Decoder-Modell für HMER. Experimente auf Benchmark-Datensätzen für HMER bestätigen, dass sowohl die gemeinsame Optimierung als auch die Zählresultate förderlich sind, um Vorhersagefehler von Encoder-Decoder-Modellen zu korrigieren, und dass CAN konsistent bessere Ergebnisse als die aktuellen Stand-of-the-Art-Methoden erzielt. Insbesondere verursacht das vorgeschlagene Zählmodul im Vergleich zu einem reinen Encoder-Decoder-Modell für HMER nur einen marginalen Mehraufwand in Bezug auf Rechenzeit. Der Quellcode ist unter https://github.com/LBH1024/CAN verfügbar.