Améliorer l'étiquetage de séquences avec un modèle de langage neuronal adapté à la tâche

L'étiquetage de séquences linguistiques est une approche de modélisation générale qui englobe divers problèmes, tels que l'étiquetage morphosyntaxique et la reconnaissance d'entités nommées. Les récentes avancées dans les réseaux neuronaux (NNs) permettent de construire des modèles fiables sans caractéristiques conçues manuellement. Cependant, dans de nombreux cas, il est difficile d'obtenir des annotations suffisantes pour entraîner ces modèles. Dans cette étude, nous développons un nouveau cadre neuronal pour extraire une abondance de connaissances cachées dans les textes bruts afin d'améliorer la tâche d'étiquetage de séquences. Outre les connaissances au niveau des mots contenues dans les plongements de mots pré-entraînés, des modèles de langage neuronaux sensibles aux caractères sont intégrés pour extraire des connaissances au niveau des caractères. Des techniques d'apprentissage par transfert sont également adoptées pour coordonner différents composants et orienter le modèle de langage vers les connaissances clés. Comparativement aux méthodes précédentes, ces connaissances spécifiques à la tâche nous permettent d'utiliser un modèle plus concis et d'effectuer un entraînement plus efficace. Contrairement à la plupart des méthodes d'apprentissage par transfert, le cadre proposé ne repose sur aucune supervision supplémentaire. Il extrait les connaissances à partir des informations d'ordre intrinsèques des séquences d'entraînement. De nombreuses expériences sur des ensembles de données de référence démontrent l'efficacité de l'utilisation des connaissances au niveau des caractères et l'efficience du co-entraînement. Par exemple, pour la tâche NER CoNLL03, l'entraînement du modèle se termine en environ 6 heures sur une seule GPU, atteignant un score F1 de 91,71$\pm$0,10 sans utiliser aucune annotation supplémentaire.