Un modèle conjoint pour l’analyse d’entités : la coreférence, la typologie et le lien

Nous présentons un modèle conjoint pour trois tâches fondamentales de l’analyse des entités : la résolution de coreférence (regroupement intra-document), la reconnaissance d’entités nommées (typage sémantique grossier) et l’identification d’entités (correspondance avec des entités Wikipedia). Notre modèle est formellement un champ aléatoire conditionnel structuré. Les facteurs unaires encodent des caractéristiques locales issues de modèles de référence performants pour chacune des tâches. Nous ajoutons ensuite des facteurs binaires et ternaires pour capturer les interactions entre les tâches, telles que la contrainte selon laquelle des mentions coreférentes doivent avoir le même type sémantique. Sur les jeux de données ACE 2005 et OntoNotes, nous obtenons des résultats de pointe pour les trois tâches. De plus, le traitement conjoint améliore les performances de chaque tâche par rapport à des modèles indépendants forts.