Amélioration de la segmentation des mots chinois par le biais de réseaux de mémoire de qualité de mot

Les caractéristiques contextuelles jouent toujours un rôle crucial dans la segmentation des mots chinois (CWS). L'information relative à la « wordhood » (ou « qualité de mot »), étant l'une de ces caractéristiques contextuelles, s'est avérée utile dans de nombreux segmenteurs traditionnels basés sur les caractères. Toutefois, cette caractéristique reçoit moins d'attention dans les modèles neuronaux récents, et il reste un défi de concevoir un cadre capable d'intégrer efficacement l'information de « wordhood » provenant de différentes mesures dans des architectures neuronales existantes. Dans cet article, nous proposons donc un cadre neuronal, WMSeg, qui utilise des réseaux à mémoire pour intégrer l'information de « wordhood » avec plusieurs combinaisons courantes d'encodeurs-décodeurs pour la CWS. Les résultats expérimentaux sur cinq jeux de données de référence montrent que le mécanisme de mémoire modélise avec succès l'information de « wordhood » pour les segmenteurs neuronaux, permettant à WMSeg d'atteindre des performances de pointe sur l'ensemble de ces jeux de données. Des expériences et analyses supplémentaires démontrent également la robustesse de notre cadre proposé vis-à-vis de différentes mesures de « wordhood », ainsi que l'efficacité de cette information dans des expériences trans-domaines.