Modèles bidirectionnels LSTM-CRF pour l'étiquetage de séquences

Dans cet article, nous proposons une variété de modèles basés sur les réseaux de mémoire à court et long terme (LSTM) pour l'étiquetage de séquences. Ces modèles comprennent des réseaux LSTM, des réseaux LSTM bidirectionnels (BI-LSTM), des réseaux LSTM avec une couche de champ aléatoire conditionnel (CRF) (LSTM-CRF) et des réseaux LSTM bidirectionnels avec une couche CRF (BI-LSTM-CRF). Notre travail est le premier à appliquer un modèle LSTM bidirectionnel CRF (noté BI-LSTM-CRF) à des ensembles de données d'étiquetage de séquences utilisés comme référence dans le traitement du langage naturel (NLP). Nous montrons que le modèle BI-LSTM-CRF peut utiliser efficacement à la fois les caractéristiques d'entrée passées et futures grâce à sa composante LSTM bidirectionnelle. Il peut également utiliser les informations d'étiquetage au niveau de la phrase grâce à sa couche CRF. Le modèle BI-LSTM-CRF peut atteindre une précision au niveau de l'état de l'art (ou proche) sur les ensembles de données d'étiquetage morpho-syntaxique (POS), de segmentation en constituants (chunking) et d'identification d'entités nommées (NER). De plus, il est robuste et dépend moins des plongements lexicaux (word embedding) par rapport aux observations précédentes.