HyperAIHyperAI
vor 11 Tagen

Zeichenbasierte Thai-Wortsegmentierung mit mehreren Aufmerksamkeiten

{Manabu Okumura, Hidetaka Kamigaito, Thodsaporn Chay-intr}
Abstract

Charakterbasierte Wortsegmentierungsmodelle wurden umfassend auf agglutinierende Sprachen wie Thai angewendet, da sie eine hohe Leistung erzielen. Diese Modelle schätzen Wortgrenzen anhand einer Zeichenfolge. Im Vergleich zu Wort-, Subwort- und Zeichencluster-Einheiten besitzt jedoch eine Zeichen-Einheit in Folgen keine essentielle Bedeutung. Wir stellen ein neues Thai-Wortsegmentierungsmodell vor, das verschiedene Informationsarten – einschließlich Wörter, Subwörter und Zeichencluster – aus einer Zeichenfolge nutzt. Unser Modell wendet mehrere Aufmerksamkeitsmechanismen an, um die Segmentierungsinferenzen durch die Schätzung signifikanter Beziehungen zwischen Zeichen und verschiedenen Einheitstypen zu verfeinern. Die experimentellen Ergebnisse zeigen, dass unser Modell andere state-of-the-art-Modelle für die Thai-Wortsegmentierung übertrifft.

Zeichenbasierte Thai-Wortsegmentierung mit mehreren Aufmerksamkeiten | Neueste Forschungsarbeiten | HyperAI