Zeichenbasierte Thai-Wortsegmentierung mit mehreren Aufmerksamkeiten
{Manabu Okumura Hidetaka Kamigaito Thodsaporn Chay-intr}
Abstract
Charakterbasierte Wortsegmentierungsmodelle wurden umfassend auf agglutinierende Sprachen wie Thai angewendet, da sie eine hohe Leistung erzielen. Diese Modelle schätzen Wortgrenzen anhand einer Zeichenfolge. Im Vergleich zu Wort-, Subwort- und Zeichencluster-Einheiten besitzt jedoch eine Zeichen-Einheit in Folgen keine essentielle Bedeutung. Wir stellen ein neues Thai-Wortsegmentierungsmodell vor, das verschiedene Informationsarten – einschließlich Wörter, Subwörter und Zeichencluster – aus einer Zeichenfolge nutzt. Unser Modell wendet mehrere Aufmerksamkeitsmechanismen an, um die Segmentierungsinferenzen durch die Schätzung signifikanter Beziehungen zwischen Zeichen und verschiedenen Einheitstypen zu verfeinern. Die experimentellen Ergebnisse zeigen, dass unser Modell andere state-of-the-art-Modelle für die Thai-Wortsegmentierung übertrifft.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| thai-word-tokenization-on-best-2010 | Multiple Attentions (char-word-cc) | F1-Score: 0.9899 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.