Maschinen das Codieren beizubringen: Neuronale Markup-Generierung mit visueller Aufmerksamkeit

Wir präsentieren ein neuronales Transduktormodell mit visueller Aufmerksamkeit (visual attention), das lernt, LaTeX-Markup für eine reale mathematische Formel basierend auf ihrem Bild zu generieren. Indem wir sequenzielle Modellierung und Transduktionstechniken anwenden, die in verschiedenen Modalitäten wie natürlicher Sprache, Bildern, Handschrift, Sprache und Audio sehr erfolgreich waren, entwickeln wir ein Bild-zu-Markup-Modell, das lernen kann, syntaktisch und semantisch korrektes LaTeX-Markup-Code über 150 Wörter lang zu erzeugen und einen BLEU-Score von 89 % erreicht; dies verbessert den bisherigen Stand der Technik für das Im2Latex-Problem. Darüber hinaus zeigen wir durch Wärmebildvisualisierung, wie Aufmerksamkeit bei der Interpretation des Modells hilft und Symbole im Bild genau erkennen (detect and localize) kann, obwohl es ohne jegliche Begrenzungsboxendaten trainiert wurde.