TAMER: Tree-Aware Transformer für die Erkennung von handschriftlichen mathematischen Ausdrücken

Die Erkennung handschriftlicher mathematischer Ausdrücke (HMER) hat umfangreiche Anwendungen im automatisierten Korrekturwesen und in der Büroautomatisierung. Bestehende sequenzbasierte Decodermethoden, die direkt $\LaTeX$-Sequenzen vorhersagen, haben jedoch Schwierigkeiten, die inhärente Baumstruktur von $\LaTeX$ zu verstehen und zu modellieren, und schlagen oft fehl, wenn es darum geht, die syntaktische Korrektheit der dekodierten Ergebnisse sicherzustellen. Um diese Herausforderungen anzugehen, schlagen wir ein neues Modell namens TAMER (Tree-Aware Transformer) für die Erkennung handschriftlicher mathematischer Ausdrücke vor. TAMER führt einen innovativen baumbewussten Modul (Tree-aware Module) ein und behält dabei die Flexibilität und den effizienten Trainingsprozess des Transformers bei. TAMER kombiniert die Vorteile von sequenzbasierten Decodern und baumbasierten Decodern durch die gemeinsame Optimierung von Sequenzvorhersage- und Baumstrukturvorhersagetasks. Dies verbessert das Verständnis und die Generalisierungsfähigkeit des Modells für komplexe mathematische Ausdruckstrukturen. Während der Inferenz verwendet TAMER eine Bastrukturvorhersagebewertungsmechanik (Tree Structure Prediction Scoring Mechanism), um die strukturelle Gültigkeit der generierten $\LaTeX$-Sequenzen zu erhöhen. Experimentelle Ergebnisse auf den CROHME-Datensätzen zeigen, dass TAMER traditionelle sequenzbasierte und baumbasierte Decodermethoden übertrifft, insbesondere bei der Bearbeitung komplexer mathematischer Strukturen, wobei es state-of-the-art (SOTA)-Leistungen erzielt.