HyperAIHyperAI
il y a 11 jours

LATTE : Encodage attentif en treillis pour la segmentation de mots basée sur les caractères

{Manabu Okumura, Kotaro Funakoshi, Hidetaka Kamigaito, Thodsaporn Chay-intr}
LATTE : Encodage attentif en treillis pour la segmentation de mots basée sur les caractères
Résumé

Une séquence de caractères comporte au moins une ou plusieurs alternatives de segmentation. Ce phénomène peut être considéré comme une ambiguïté de segmentation, qui peut affaiblir les performances du traitement de segmentation des mots. Une gestion adéquate de cette ambiguïté permet de réduire les décisions ambiguës concernant les frontières des mots. Les travaux antérieurs ont obtenu des performances remarquables en segmentation et atténué le problème d’ambiguïté en intégrant un réseau (lattice), grâce à sa capacité à capturer les différentes alternatives de segmentation, combinée à des modèles basés sur les graphes et des modèles pré-entraînés. Toutefois, les informations à plusieurs granularités — incluant les caractères et les mots — présentes dans un lattice codé par ces modèles ne sont pas toujours exploitées de manière attentive. Afin de renforcer les représentations à plusieurs granularités dans un lattice, nous proposons une méthode appelée Lattice ATTentive Encoding (LATTE) pour la segmentation des mots basée sur les caractères. Notre modèle utilise la structure de lattice pour gérer les alternatives de segmentation et combine des réseaux de neurones graphiques avec un mécanisme d’attention afin d’extraire de manière attentive des représentations à plusieurs granularités à partir du lattice, afin de compléter les représentations par caractères. Les résultats expérimentaux ont démontré une amélioration des performances de segmentation sur les jeux de données BCCWJ, CTB6 et BEST2010, couvrant trois langues, notamment le japonais, le chinois et le thaïlandais.

LATTE : Encodage attentif en treillis pour la segmentation de mots basée sur les caractères | Articles de recherche récents | HyperAI