HyperAIHyperAI
il y a 11 jours

Intégration de l'attention sur les mots dans la segmentation de mots basée sur les caractères

{Shohei Higashiyama, Masao Utiyama, Yoshiaki Oida, Yohei Sakamoto, Masao Ideuchi, Eiichiro Sumita, Isaac Okada}
Intégration de l'attention sur les mots dans la segmentation de mots basée sur les caractères
Résumé

Les modèles de réseaux de neurones ont été largement appliqués à la segmentation des mots, en particulier pour le chinois, en raison de leur capacité à réduire considérablement les efforts nécessaires en ingénierie de caractéristiques. Les modèles de segmentation classiques se divisent en deux catégories : les modèles basés sur les caractères, qui permettent une inférence précise, et les modèles basés sur les mots, qui exploitent les informations au niveau du mot. Nous proposons un modèle basé sur les caractères qui intègre également des informations sur les mots afin de tirer parti des avantages des deux approches. Notre modèle apprend l’importance de plusieurs mots candidats associés à un même caractère grâce à un mécanisme d’attention, et utilise cette information pour prendre des décisions de segmentation. Les résultats expérimentaux montrent que notre modèle obtient des performances supérieures aux modèles les plus avancés sur les jeux de données de référence en japonais et en chinois.

Intégration de l'attention sur les mots dans la segmentation de mots basée sur les caractères | Articles de recherche récents | HyperAI