AttaCut : Un segmenteur de mots thaï rapide et précis basé sur un réseau neuronal

La segmentation lexicale est une étape de prétraitement fondamentale pour le traitement automatique des langues naturelles en thaïlandais. Les solutions actuellement disponibles ne sont pas évaluées de manière cohérente, ce qui rend difficile la comparaison de leurs compromis. Nous avons mené une comparaison de vitesse et de précision des systèmes populaires sur trois domaines différents et avons constaté que le système d'apprentissage profond de pointe est lent et, de plus, n'utilise pas les structures sous-lexicales pour guider le modèle. Ici, nous proposons un segmenteur lexical neuronal rapide et précis pour le thaïlandais qui utilise des filtres CNN dilatés pour capturer l'environnement de chaque caractère et des plongements syllabiques (syllable embeddings) comme caractéristiques. Notre système fonctionne au moins 5,6 fois plus rapidement et surpasse le précédent système de pointe dans certains domaines. De plus, nous développons le premier segmenteur syllabique orthographique basé sur l'apprentissage machine (ML) en thaïlandais, qui fournit des plongements syllabiques à utiliser comme caractéristiques par le segmenteur lexical.