AttaCut: Ein schneller und genauer neuronaler Thai-Wortsegmentierer

Die Wortscheidung ist ein grundlegender Vorverarbeitungsschritt für die thailändische Sprachverarbeitung. Die derzeit verfügbaren Lösungen werden nicht konsistent evaluiert, was es schwierig macht, ihre Vor- und Nachteile zu vergleichen. Wir haben eine Geschwindigkeits- und Genauigkeitsanalyse der gängigen Systeme in drei verschiedenen Domänen durchgeführt und festgestellt, dass das aktuell fortschrittlichste Deep-Learning-System langsam ist und zudem keine Sub-Wortstrukturen zur Steuerung des Modells verwendet. Hier schlagen wir einen schnellen und genauen neuronalen thailändischen Wortscheidungsassistenten vor, der erweiterte CNN-Filter (dilated CNN filters) verwendet, um die Umgebung jedes Buchstabens zu erfassen, und Silben-Einbettungen (syllable embeddings) als Merkmale nutzt. Unser System läuft mindestens 5,6-mal schneller und übertrifft das bisherige fortschrittlichste System in einigen Domänen. Zudem entwickeln wir den ersten auf maschinellem Lernen basierenden thailändischen orthographischen Silbenschiedungsassistenten, der Silben-Einbettungen erzeugt, die vom Wortscheidungsassistenten als Merkmale verwendet werden können.