vor 2 Monaten

NAMER: Nicht-sequenzielles Modellierung für die Erkennung von handschriftlichen mathematischen Ausdrücken

Liu, Chenyu ; Pan, Jia ; Hu, Jinshui ; Yin, Baocai ; Yin, Bing ; Chen, Mingjun ; Liu, Cong ; Du, Jun ; Liu, Qingfeng

Abstract

Kürzlich hat die Erkennung handschriftlicher mathematischer Ausdrücke (HMER) aufgrund ihrer vielfältigen Anwendungen im Bereich der Dokumentenverarbeitung erhebliche Aufmerksamkeit in der Mustererkennung gefunden. Aktuelle Methoden behandeln HMER in der Regel als eine Bild-zu-Sequenz-Generierungsaufgabe innerhalb eines autoregressiven (AR) Encoder-Decoder-Frameworks. Diese Ansätze leiden jedoch unter mehreren Nachteilen: 1) einem Mangel an übergeordnetem Sprachkontext, was die Nutzung von Informationen jenseits des aktuellen Decodierungsschritts einschränkt; 2) Fehlerakkumulation während der AR-Decodierung; und 3) langsamer Decodiergeschwindigkeit. Um diese Probleme zu lösen, unternimmt dieser Artikel den ersten Versuch, einen neuen bottom-up-Ansatz für HMER zu entwickeln, der als Non-AutoRegressive Modeling (NAMER) bezeichnet wird. NAMER besteht aus einem Visual Aware Tokenizer (VAT) und einem Parallel Graph Decoder (PGD). Zunächst tokenisiert der VAT sichtbare Symbole und lokale Beziehungen auf einer groben Ebene. Anschließend verfeinert der PGD alle Tokens und etabliert Verbindungen parallel, wobei er umfassende visuelle und sprachliche Kontexte nutzt. Experimente mit den Datensätzen CROHME 2014/2016/2019 und HME100K zeigen, dass NAMER nicht nur die aktuellen Stand-of-the-Art-Methoden (SOTA) bei ExpRate um 1,93%/2,35%/1,49%/0,62% übertreffen kann, sondern auch signifikante Beschleunigungen erreicht, indem es die Decodierzeit um 13,7-fache und das Gesamtfps um 6,7-fache verkürzt. Dies beweist die Effektivität und Effizienz von NAMER.