MINER : Amélioration de la reconnaissance d'entités nommées hors vocabulaire à partir d'une perspective théorique de l'information

Le modèle NER a atteint des performances prometteuses sur les benchmarks standards de NER. Toutefois, des études récentes montrent que les approches précédentes peuvent trop s’appuyer sur les informations relatives aux mentions d’entités, entraînant des performances médiocres pour la reconnaissance d’entités hors vocabulaire (OOV). Dans ce travail, nous proposons MINER, un nouveau cadre d’apprentissage NER, visant à corriger ce problème sous l’angle de la théorie de l’information. L’approche proposée intègre deux objectifs d’entraînement fondés sur l’information mutuelle : i) la maximisation de l’information généralisante, qui améliore les représentations grâce à une compréhension approfondie du contexte et des formes superficielles des entités ; ii) la minimisation de l’information superflue, qui dissuade les représentations de mémoriser mécaniquement les noms d’entités ou d’exploiter des indices biaisés présents dans les données. Des expériences menées dans diverses configurations et sur plusieurs jeux de données démontrent que MINER atteint des performances supérieures dans la prédiction des entités OOV.