Handschriftliche mathematische Ausdrucks erkennung mit bidirektional trainiertem Transformer

Encoder-Decoder-Modelle haben kürzlich bei der Erkennung handschriftlicher mathematischer Ausdrücke große Fortschritte gemacht. Dennoch stellen bestehende Methoden weiterhin die genaue Zuordnung von Aufmerksamkeit zu Bildmerkmalen als Herausforderung dar. Zudem verwenden diese Encoder-Decoder-Modelle in der Regel RNN-basierte Modelle in ihrem Decoder-Teil, was ihre Effizienz bei der Verarbeitung langer $\LaTeX{}$-Sequenzen beeinträchtigt. In dieser Arbeit wird ein transformerbasierter Decoder eingesetzt, um RNN-basierte Decodern zu ersetzen, wodurch die gesamte Modellarchitektur sehr prägnant gestaltet wird. Des Weiteren wird eine neuartige Trainingsstrategie eingeführt, um das volle Potenzial des Transformers bei bidirektionaler Sprachmodellierung zu nutzen. Vergleichsexperimente zeigen, dass unser Modell im Vergleich zu mehreren Methoden ohne Datenverstärkung den ExpRate auf CROHME 2014 um 2,23 % verbessert. Ähnlich verbessern wir den ExpRate auf CROHME 2016 und CROHME 2019 um jeweils 1,92 % und 2,28 %.