HyperAIHyperAI
il y a 11 jours

Segmentation de mots thaïlandais basée sur les caractères avec des attentions multiples

{Manabu Okumura, Hidetaka Kamigaito, Thodsaporn Chay-intr}
Résumé

Les modèles de segmentation lexicale basés sur les caractères ont été largement appliqués aux langues agglutinantes, notamment le thaï, en raison de leurs performances élevées. Ces modèles estiment les frontières des mots à partir d'une séquence de caractères. Toutefois, une unité de caractère dans une séquence ne possède pas de signification intrinsèque, contrairement aux unités mot, sous-mot et groupe de caractères. Nous proposons un modèle de segmentation lexicale thaïe qui exploite divers types d'informations — mots, sous-mots et groupes de caractères — extraits d'une séquence de caractères. Notre modèle applique plusieurs mécanismes d'attention afin de raffiner les inférences de segmentation en estimant les relations significatives entre les caractères et les différentes unités. Les résultats expérimentaux montrent que notre modèle surpasse d'autres modèles d'état de l'art en segmentation lexicale thaïe.

Segmentation de mots thaïlandais basée sur les caractères avec des attentions multiples | Articles de recherche récents | HyperAI