Handschriftliche mathematische Ausdrucks erkennung durch Aufmerksamkeitsaggregation basierendes bidirektionales gegenseitiges Lernen

Die Erkennung handschriftlicher mathematischer Ausdrücke zielt darauf ab, LaTeX-Sequenzen automatisch aus gegebenen Bildern zu generieren. Derzeit werden aufmerksamkeitsbasierte Encoder-Decoder-Modelle in dieser Aufgabe weit verbreitet eingesetzt. Sie erzeugen in der Regel die Zielsequenzen von links nach rechts (L2R), wobei die Informationen von rechts nach links (R2L) ungenutzt bleiben. In diesem Artikel schlagen wir ein Aufmerksamkeitsaggregations-basiertes bidirektionales gegenseitiges Lernnetzwerk (ABM – Attention aggregation based Bi-directional Mutual learning Network) vor, das einen gemeinsamen Encoder und zwei parallele inverse Decoders (L2R und R2L) umfasst. Die beiden Decoders werden durch gegenseitige Destillation verbessert, die bei jedem Trainingschritt eine ein-zu-eins Wissensübertragung beinhaltet und so die komplementären Informationen aus den beiden inversen Richtungen vollständig nutzt. Darüber hinaus wurde, um mit mathematischen Symbolen unterschiedlicher Größen umgehen zu können, ein Modul zur Aufmerksamkeitsaggregation (AAM – Attention Aggregation Module) entwickelt, das effektiv mehrskalige Abdeckungs-Aufmerksamkeiten integriert. Bemerkenswerterweise nutzen wir im Inferenzphasen nur den L2R-Zweig für die Inferenz, da das Modell bereits Wissen aus den beiden inversen Richtungen gelernt hat. Dies ermöglicht es uns, die ursprüngliche Parametergröße und die Inferenzgeschwindigkeit beizubehalten. Umfangreiche Experimente zeigen, dass unser vorgeschlagener Ansatz ohne Datenverstärkung und Modellverknüpfung eine Erkennungsgenauigkeit von 56,85 % auf CROHME 2014, 52,92 % auf CROHME 2016 und 53,96 % auf CROHME 2019 erreicht, was deutlich besser als der aktuelle Stand der Technik ist. Der Quellcode ist unter https://github.com/XH-B/ABM verfügbar.