HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation de mots thaïlandais basée sur les caractères avec des attentions multiples

Manabu Okumura Hidetaka Kamigaito Thodsaporn Chay-intr

Résumé

Les modèles de segmentation lexicale basés sur les caractères ont été largement appliqués aux langues agglutinantes, notamment le thaï, en raison de leurs performances élevées. Ces modèles estiment les frontières des mots à partir d'une séquence de caractères. Toutefois, une unité de caractère dans une séquence ne possède pas de signification intrinsèque, contrairement aux unités mot, sous-mot et groupe de caractères. Nous proposons un modèle de segmentation lexicale thaïe qui exploite divers types d'informations — mots, sous-mots et groupes de caractères — extraits d'une séquence de caractères. Notre modèle applique plusieurs mécanismes d'attention afin de raffiner les inférences de segmentation en estimant les relations significatives entre les caractères et les différentes unités. Les résultats expérimentaux montrent que notre modèle surpasse d'autres modèles d'état de l'art en segmentation lexicale thaïe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp