HyperAIHyperAI
il y a 2 mois

Évaluation de l'utilité des caractéristiques manuellement conçues dans l'étiquetage de séquences

Minghao Wu; Fei Liu; Trevor Cohn
Évaluation de l'utilité des caractéristiques manuellement conçues dans l'étiquetage de séquences
Résumé

La sagesse conventionnelle est que les caractéristiques élaborées manuellement sont redondantes pour les modèles d'apprentissage profond, car ceux-ci apprennent déjà des représentations adéquates du texte de manière automatique à partir de corpus. Dans cette étude, nous mettons cette affirmation à l'épreuve en proposant une nouvelle méthode pour exploiter les caractéristiques élaborées manuellement au sein d'une approche hybride innovante, intégrant une composante de perte d'auto-encodeur de caractéristiques. Nous évaluons cette méthode sur la tâche de reconnaissance d'entités nommées (NER), où nous démontrons que l'inclusion de caractéristiques manuelles pour la catégorisation morphosyntaxique (part-of-speech), les formes des mots et les gazetteurs peut améliorer les performances d'un modèle CRF neuronal. Nous obtenons un score $F_1$ de 91,89 pour la tâche anglaise CoNLL-2003, ce qui dépasse considérablement les performances d'un ensemble de modèles de référence hautement compétitifs. Nous présentons également une étude par suppression progressive (ablation study) montrant l'importance de l'auto-encodage par rapport à l'utilisation des caractéristiques en tant qu'entrées ou sorties seules, et nous démontrons que l'intégration des composants d'auto-encodeur réduit les besoins en formation à 60 % tout en conservant la même précision prédictive.

Évaluation de l'utilité des caractéristiques manuellement conçues dans l'étiquetage de séquences | Articles de recherche récents | HyperAI