HyperAIHyperAI
il y a un mois

Modèles bidirectionnels LSTM-CRF pour l'étiquetage de séquences

Zhiheng Huang; Wei Xu; Kai Yu
Modèles bidirectionnels LSTM-CRF pour l'étiquetage de séquences
Résumé

Dans cet article, nous proposons une variété de modèles basés sur les réseaux de mémoire à court et long terme (LSTM) pour l'étiquetage de séquences. Ces modèles comprennent des réseaux LSTM, des réseaux LSTM bidirectionnels (BI-LSTM), des réseaux LSTM avec une couche de champ aléatoire conditionnel (CRF) (LSTM-CRF) et des réseaux LSTM bidirectionnels avec une couche CRF (BI-LSTM-CRF). Notre travail est le premier à appliquer un modèle LSTM bidirectionnel CRF (noté BI-LSTM-CRF) à des ensembles de données d'étiquetage de séquences utilisés comme référence dans le traitement du langage naturel (NLP). Nous montrons que le modèle BI-LSTM-CRF peut utiliser efficacement à la fois les caractéristiques d'entrée passées et futures grâce à sa composante LSTM bidirectionnelle. Il peut également utiliser les informations d'étiquetage au niveau de la phrase grâce à sa couche CRF. Le modèle BI-LSTM-CRF peut atteindre une précision au niveau de l'état de l'art (ou proche) sur les ensembles de données d'étiquetage morpho-syntaxique (POS), de segmentation en constituants (chunking) et d'identification d'entités nommées (NER). De plus, il est robuste et dépend moins des plongements lexicaux (word embedding) par rapport aux observations précédentes.

Modèles bidirectionnels LSTM-CRF pour l'étiquetage de séquences | Articles de recherche récents | HyperAI