TDv2: Ein neuartiger baumstrukturierter Decoder für die Offline-Erkennung mathematischer Ausdrücke
In den letzten Jahren haben Baum-Decoder in der Forschung zu der Erkennung handschriftlicher mathematischer Ausdrücke (HMER) an Beliebtheit gegenüber LaTeX-Zeichenketten-Decoder zugenommen, da sie die hierarchische Baumstruktur mathematischer Ausdrücke besser erfassen können. Allerdings wandelten bisherige Baum-Decoder die Baumstruktur-Labels in eine feste und geordnete Sequenz um, wodurch die Vielfalt der möglichen Baumdarstellungen nicht vollständig ausgenutzt werden konnte. In dieser Arbeit stellen wir einen neuen Baum-Decoder (TDv2) vor, der die Baumstruktur-Labels effizienter nutzt. Im Gegensatz zu früheren Ansätzen erfordert das neue Modell während des Trainings und der Inferenz keine feste Priorität für verschiedene Zweige eines Knotens, was die Generalisierungsfähigkeit des Modells erheblich verbessert. Die Eingabe und Ausgabe des Modells nutzen vollständig die Baumstruktur-Labels, sodass im Dekodierungsprozess kein Suchen nach dem Elternknoten mehr notwendig ist. Dadurch wird der Dekodierungsprozess vereinfacht, und zusätzliche Vorwissen wird bereitgestellt, um die Vorhersage der Knoten zu unterstützen. Die Wirksamkeit jedes Modulabschnitts wurde durch umfassende Ablationsexperimente und Analyse der Aufmerksamkeitsmuster verifiziert. Auf den renommierten CROHME-Datensätzen 14/16/19 erzielt unsere Methode Ergebnisse auf dem Stand der Technik.