CoMER: Modellierung der Abdeckung für die transformerbasierte Erkennung von handschriftlichen mathematischen Ausdrücken

Die transformer-basierte Encoder-Decoder-Architektur hat kürzlich erhebliche Fortschritte bei der Erkennung handschriftlicher mathematischer Ausdrücke gemacht. Dennoch leidet das Transformer-Modell noch an dem Problem des fehlenden Überdeckungsgrades, wodurch seine Erkennungsrate von Ausdrücken (ExpRate) unter der seines RNN-Gegenstücks zurückbleibt. Überdeckungsinformationen, die die Zuordnungsdaten der vergangenen Schritte aufzeichnen, haben sich in RNN-Modellen als effektiv erwiesen. In dieser Arbeit schlagen wir CoMER vor, ein Modell, das Überdeckungsinformationen im Transformer-Dekoder verwendet. Insbesondere entwickeln wir ein neuartiges Aufmerksamkeitsverfeinerungsmodul (ARM), das die Aufmerksamkeitsgewichte mit Hilfe der vergangenen Zuordnungsdaten verfeinert, ohne dessen Parallelität zu beeinträchtigen. Darüber hinaus führen wir den Begriff der Überdeckungsinformationen bis an ihre Grenzen und schlagen Selbstüberdeckung und Kreuzüberdeckung vor, welche die vergangenen Zuordnungsdaten aus der aktuellen und den vorherigen Schichten nutzen. Experimente zeigen, dass CoMER die ExpRate um 0,61%/2,09%/1,59% verbessert im Vergleich zum aktuellen Stand der Technik und Werte von 59,33%/59,81%/62,97% auf den Testsets von CROHME 2014/2016/2019 erreicht.