Réseau d'Attention Hiérarchique Raffiné pour l'Étiquetage de Séquences

Le modèle de champs aléatoires conditionnels (CRF) a été largement utilisé pour l'étiquetage séquentiel statistique. Cependant, pour l'étiquetage séquentiel neuronal, le modèle BiLSTM-CRF ne conduit pas toujours à de meilleurs résultats par rapport à la classification locale BiLSTM-softmax. Ceci peut être dû au fait que le modèle de transition des étiquettes de Markov simple du CRF n'apporte pas beaucoup d'information supplémentaire par rapport à une encodage neuronale robuste. Pour représenter les séquences d'étiquettes de manière plus efficace, nous avons examiné un réseau d'attention hiérarchique raffinée des étiquettes, qui utilise explicitement les plongements d'étiquettes et capture les dépendances potentielles à long terme des étiquettes en donnant à chaque mot des distributions d'étiquettes progressivement affinées grâce à l'attention hiérarchique. Les résultats sur l'étiquetage morphosyntaxique (POS tagging), la reconnaissance d'entités nommées (NER) et l'étiquetage supertag CCG montrent que le modèle proposé non seulement améliore la précision globale de l'étiquetage avec un nombre similaire de paramètres, mais accélère également considérablement l'entraînement et les tests par rapport au BiLSTM-CRF.