Vers la reconnaissance d'entités nommées en lingua franca avec BERT

L'extraction d'information est une tâche importante en traitement du langage naturel (NLP), permettant l'extraction automatique de données pour le remplissage de bases de données relationnelles. Historiquement, les recherches et les données ont été produites pour le texte en anglais, suivi dans les années suivantes par des jeux de données en arabe, chinois (ACE/OntoNotes), néerlandais, espagnol, allemand (évaluations CoNLL) et bien d'autres. La tendance naturelle a été de traiter chaque langue comme un jeu de données différent et de construire des modèles optimisés pour chacune. Dans cet article, nous examinons un modèle unique de reconnaissance d'entités nommées (NER), basé sur un BERT multilingue, qui est formé simultanément sur de nombreuses langues et capable de décoder ces langues avec une meilleure précision que les modèles formés uniquement sur une seule langue. Pour améliorer le modèle initial, nous étudions l'utilisation de stratégies de régularisation telles que l'apprentissage multitâche et les mises à jour partielles du gradient. En plus d'être un seul modèle capable de traiter plusieurs langues (y compris le code-switching), ce modèle peut être utilisé pour faire des prédictions zero-shot sur une nouvelle langue, même celles pour lesquelles aucune donnée d'entraînement n'est disponible, directement après son entraînement. Les résultats montrent que ce modèle non seulement se compare favorablement aux modèles monolingues, mais il atteint également des performances d'état de l'art sur les jeux de données CoNLL02 néerlandais et espagnol, ainsi que sur les jeux de données OntoNotes arabe et chinois. De plus, il performe raisonnablement bien sur des langues inconnues, obtenant des résultats d'état de l'art en zero-shot pour trois langues CoNLL.