Évaluation de l'utilité des caractéristiques manuellement conçues dans l'étiquetage de séquences

La sagesse conventionnelle est que les caractéristiques élaborées manuellement sont redondantes pour les modèles d'apprentissage profond, car ceux-ci apprennent déjà des représentations adéquates du texte de manière automatique à partir de corpus. Dans cette étude, nous mettons cette affirmation à l'épreuve en proposant une nouvelle méthode pour exploiter les caractéristiques élaborées manuellement au sein d'une approche hybride innovante, intégrant une composante de perte d'auto-encodeur de caractéristiques. Nous évaluons cette méthode sur la tâche de reconnaissance d'entités nommées (NER), où nous démontrons que l'inclusion de caractéristiques manuelles pour la catégorisation morphosyntaxique (part-of-speech), les formes des mots et les gazetteurs peut améliorer les performances d'un modèle CRF neuronal. Nous obtenons un score $F_1$ de 91,89 pour la tâche anglaise CoNLL-2003, ce qui dépasse considérablement les performances d'un ensemble de modèles de référence hautement compétitifs. Nous présentons également une étude par suppression progressive (ablation study) montrant l'importance de l'auto-encodage par rapport à l'utilisation des caractéristiques en tant qu'entrées ou sorties seules, et nous démontrons que l'intégration des composants d'auto-encodeur réduit les besoins en formation à 60 % tout en conservant la même précision prédictive.