Identification et explication des attributs discriminants

Identifier ce qui se trouve au cœur du sens d’un mot et ce qui le distingue des autres mots constitue une tâche fondamentale d’inférence sémantique naturelle. Ce papier présente un modèle explicite de représentation vectorielle des mots (WVM, Word Vector Model) destiné à soutenir l’identification des attributs discriminants. Une contribution centrale de l’étude réside dans une analyse comparative quantitative et qualitative de différents types de sources de données et de bases de connaissances dans la construction de modèles WVM explicites et interprétables : (i) les graphes de connaissances construits à partir de définitions de dictionnaire, (ii) les graphes entité-attribut-relation dérivés d’images, et (iii) les graphes de connaissances du sens commun. À l’aide d’une analyse quantitative et qualitative détaillée, nous démontrons que ces sources de données présentent des aspects sémantiques complémentaires, favorisant ainsi la création d’espaces vectoriels sémantiques explicites. Les espaces vectoriels explicites sont évalués sur la tâche d’identification des attributs discriminants, obtenant des performances comparables aux systèmes de pointe dans cette tâche (score F1 = 0,69), tout en offrant une transparence et une explicabilité complètes du modèle.