HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Zeichenbasierte Thai-Wortsegmentierung mit mehreren Aufmerksamkeiten

{Manabu Okumura Hidetaka Kamigaito Thodsaporn Chay-intr}

Abstract

Charakterbasierte Wortsegmentierungsmodelle wurden umfassend auf agglutinierende Sprachen wie Thai angewendet, da sie eine hohe Leistung erzielen. Diese Modelle schätzen Wortgrenzen anhand einer Zeichenfolge. Im Vergleich zu Wort-, Subwort- und Zeichencluster-Einheiten besitzt jedoch eine Zeichen-Einheit in Folgen keine essentielle Bedeutung. Wir stellen ein neues Thai-Wortsegmentierungsmodell vor, das verschiedene Informationsarten – einschließlich Wörter, Subwörter und Zeichencluster – aus einer Zeichenfolge nutzt. Unser Modell wendet mehrere Aufmerksamkeitsmechanismen an, um die Segmentierungsinferenzen durch die Schätzung signifikanter Beziehungen zwischen Zeichen und verschiedenen Einheitstypen zu verfeinern. Die experimentellen Ergebnisse zeigen, dass unser Modell andere state-of-the-art-Modelle für die Thai-Wortsegmentierung übertrifft.

Benchmarks

BenchmarkMethodikMetriken
thai-word-tokenization-on-best-2010Multiple Attentions (char-word-cc)
F1-Score: 0.9899

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zeichenbasierte Thai-Wortsegmentierung mit mehreren Aufmerksamkeiten | Forschungsarbeiten | HyperAI