Reconnaissance de noms imbriqués d'entités avec des TreeCRFs partiellement observés

La reconnaissance d'entités nommées (NER) est une tâche largement étudiée en traitement du langage naturel. Toutefois, le cadre classique de labellisation de séquence utilisé couramment se heurte à des difficultés pour détecter des entités présentant des structures imbriquées. Dans ce travail, nous considérons la NER imbriquée comme une analyse syntaxique constituante avec des arbres partiellement observés, et nous la modélisons à l’aide de TreeCRF partiellement observés. Plus précisément, nous traitons tous les segments d’entités étiquetés comme des nœuds observés dans un arbre constituante, tandis que les autres segments sont considérés comme des nœuds latents. Grâce au TreeCRF, nous proposons une approche uniforme pour modéliser conjointement les nœuds observés et les nœuds latents. Pour calculer la probabilité des arbres partiels via une marginalisation partielle, nous introduisons une variante de l’algorithme Inside, appelée algorithme \textsc{Masked Inside}, qui permet d’effectuer différentes opérations d’inférence selon les nœuds (évaluation pour les nœuds observés, marginalisation pour les nœuds latents, rejet pour les nœuds incompatibles avec les observations), tout en offrant une implémentation parallélisée efficace, ce qui accélère considérablement l’entraînement et l’inférence. Les expériences montrent que notre méthode atteint des scores F1 de pointe (SOTA) sur les jeux de données ACE2004 et ACE2005, et présente des performances comparables aux modèles SOTA sur le jeu de données GENIA. L’implémentation de notre approche est disponible à l’adresse : \url{https://github.com/FranxYao/Partially-Observed-TreeCRFs}.