Fonctionnalités supplémentaires du BiLSTM pour une étiquetage de séquence amélioré

Les tâches d'étiquetage de séquence nécessitent le calcul de représentations de phrases pour chaque mot au sein d'une phrase donnée. Une méthode courante consiste à intégrer une couche de mémoire à court et long terme bidirectionnelle (BiLSTM) afin d'améliorer les informations sur la structure de la séquence. Cependant, des preuves empiriques suggèrent que la capacité du BiLSTM à produire des représentations de phrases pour les tâches d'étiquetage de séquence est intrinsèquement limitée, comme l'a montré Li (2020). Cette limitation découle principalement de l'intégration de fragments des représentations passées et futures de la phrase pour formuler une représentation complète. Dans cette étude, nous avons observé que la représentation entière de la phrase, présente dans les premières et dernières cellules du BiLSTM, peut compléter la représentation individuelle de chaque cellule. En conséquence, nous avons conçu un mécanisme de contexte global pour intégrer les représentations entières futures et passées dans la représentation de phrase de chaque cellule au sein du cadre BiLSTM. En incorporant le modèle BERT au sein du BiLSTM comme démonstration, et en menant des expériences exhaustives sur neuf jeux de données pour des tâches d'étiquetage de séquence, y compris l'étiquetage d'entités nommées (NER), l'étiquetage morpho-syntactique (POS) et l'analyse sentimentale basée sur les aspects bout-à-bout (E2E-ABSA), nous avons noté des améliorations significatives des scores F1 et de la précision sur l'ensemble des jeux de données examinés.