Command Palette
Search for a command to run...
TAMER: Tree-Aware Transformer für die Erkennung von handschriftlichen mathematischen Ausdrücken
TAMER: Tree-Aware Transformer für die Erkennung von handschriftlichen mathematischen Ausdrücken
Jianhua Zhu Wenqi Zhao Yu Li Xingjian Hu Liangcai Gao
Zusammenfassung
Die Erkennung handschriftlicher mathematischer Ausdrücke (HMER) hat umfangreiche Anwendungen im automatisierten Korrekturwesen und in der Büroautomatisierung. Bestehende sequenzbasierte Decodermethoden, die direkt LATEX-Sequenzen vorhersagen, haben jedoch Schwierigkeiten, die inhärente Baumstruktur von LATEX zu verstehen und zu modellieren, und schlagen oft fehl, wenn es darum geht, die syntaktische Korrektheit der dekodierten Ergebnisse sicherzustellen. Um diese Herausforderungen anzugehen, schlagen wir ein neues Modell namens TAMER (Tree-Aware Transformer) für die Erkennung handschriftlicher mathematischer Ausdrücke vor. TAMER führt einen innovativen baumbewussten Modul (Tree-aware Module) ein und behält dabei die Flexibilität und den effizienten Trainingsprozess des Transformers bei. TAMER kombiniert die Vorteile von sequenzbasierten Decodern und baumbasierten Decodern durch die gemeinsame Optimierung von Sequenzvorhersage- und Baumstrukturvorhersagetasks. Dies verbessert das Verständnis und die Generalisierungsfähigkeit des Modells für komplexe mathematische Ausdruckstrukturen. Während der Inferenz verwendet TAMER eine Bastrukturvorhersagebewertungsmechanik (Tree Structure Prediction Scoring Mechanism), um die strukturelle Gültigkeit der generierten LATEX-Sequenzen zu erhöhen. Experimentelle Ergebnisse auf den CROHME-Datensätzen zeigen, dass TAMER traditionelle sequenzbasierte und baumbasierte Decodermethoden übertrifft, insbesondere bei der Bearbeitung komplexer mathematischer Strukturen, wobei es state-of-the-art (SOTA)-Leistungen erzielt.