Utilisation de mesures de similarité pour sélectionner les données de pré entraînement pour l'NER

Les vecteurs de mots et les modèles de langage (LM) pré-entraînés sur une grande quantité de données non étiquetées peuvent améliorer considérablement diverses tâches de traitement automatique des langues (TAL). Cependant, la mesure et l'impact de la similarité entre les données d'pré-entraînement et les données de la tâche cible sont laissés à l'intuition. Nous proposons trois mesures rentables pour quantifier différents aspects de la similarité entre les données d'pré-entraînement et les données de la tâche cible. Nous démontrons que ces mesures sont de bons prédicteurs de l'utilité des modèles pré-entraînés pour la reconnaissance d'entités nommées (NER) sur plus de 30 paires de données. Les résultats suggèrent également que les modèles de langage pré-entraînés sont plus efficaces et plus prévisibles que les vecteurs de mots pré-entraînés, mais ces derniers sont meilleurs lorsque les données d'pré-entraînement sont dissemblables.