Zeichenbasierte Thai-Wortsegmentierung mit mehreren Aufmerksamkeiten
Charakterbasierte Wortsegmentierungsmodelle wurden umfassend auf agglutinierende Sprachen wie Thai angewendet, da sie eine hohe Leistung erzielen. Diese Modelle schätzen Wortgrenzen anhand einer Zeichenfolge. Im Vergleich zu Wort-, Subwort- und Zeichencluster-Einheiten besitzt jedoch eine Zeichen-Einheit in Folgen keine essentielle Bedeutung. Wir stellen ein neues Thai-Wortsegmentierungsmodell vor, das verschiedene Informationsarten – einschließlich Wörter, Subwörter und Zeichencluster – aus einer Zeichenfolge nutzt. Unser Modell wendet mehrere Aufmerksamkeitsmechanismen an, um die Segmentierungsinferenzen durch die Schätzung signifikanter Beziehungen zwischen Zeichen und verschiedenen Einheitstypen zu verfeinern. Die experimentellen Ergebnisse zeigen, dass unser Modell andere state-of-the-art-Modelle für die Thai-Wortsegmentierung übertrifft.