Ein baumstrukturierter Decoder für die Generierung von Markup aus Bildern
Neuere Encoder-Decoder-Ansätze verwenden typischerweise String-Decoder, um Bilder in serialisierte Strings für die Bild-zu-Markup-Umwandlung zu überführen. Für baumstrukturierte repräsentative Markup-Darstellungen sind String-Repräsentationen jedoch nur schwer in der Lage, die strukturelle Komplexität zu bewältigen. In dieser Arbeit zeigen wir zunächst anhand einer Reihe von Modellbeispielen, dass String-Decoder Schwierigkeiten haben, Baumstrukturen zu entschlüsseln, insbesondere wenn die strukturelle Komplexität zunimmt. Anschließend stellen wir einen baumstrukturierten Decoder vor, der speziell darauf abzielt, eine baumstrukturierte Markup-Darstellung zu generieren. Unser Decoder arbeitet sequenziell, wobei in jedem Schritt ein Kindknoten und sein Elternknoten gleichzeitig generiert werden, um eine Teilbaumstruktur zu bilden. Dieser Teilbaum wird anschließend rekursiv genutzt, um die endgültige Baumstruktur aufzubauen. Der Schlüsselerfolg unseres baumstrukturierten Decoders beruht auf zwei zentralen Aspekten: (i) die strikte Einhaltung der Eltern-Kind-Beziehung in Bäumen und (ii) die explizite Ausgabe einer Baumstruktur anstelle einer linearen Zeichenkette. Evaluierungen sowohl auf der Erkennung mathematischer Formeln als auch chemischer Formeln zeigen, dass der vorgeschlagene baumstrukturierte Decoder starke String-Decoder-Baselines erheblich übertrifft.