HyperAIHyperAI
il y a 17 jours

Produits WDC : Un benchmark pour la correspondance d'entités multidimensionnelle

Ralph Peeters, Reng Chiz Der, Christian Bizer
Produits WDC : Un benchmark pour la correspondance d'entités multidimensionnelle
Résumé

La difficulté d'une tâche de correspondance d'entités dépend d'un ensemble de facteurs multiples, tels que le nombre de paires de cas limites, la proportion d'entités présentes dans l'ensemble de test mais non observées durant l'apprentissage, ainsi que la taille de l'ensemble de développement. Les benchmarks actuels de correspondance d'entités représentent généralement des points isolés dans cet espace multidimensionnel, ou permettent l'évaluation des méthodes de correspondance selon une seule dimension — par exemple, la quantité de données d'apprentissage. Ce papier présente WDC Products, un benchmark de correspondance d'entités qui permet une évaluation systématique des systèmes de correspondance selon une combinaison de trois dimensions, tout en s'appuyant sur des données réelles. Ces trois dimensions sont : (i) la quantité de cas limites, (ii) la capacité de généralisation aux entités inconnues, et (iii) la taille de l'ensemble de développement (ensemble d'apprentissage plus ensemble de validation). La généralisation aux entités inconnues constitue une dimension non encore couverte par aucun des benchmarks existants en langue anglaise, bien qu'elle soit cruciale pour évaluer la robustesse des systèmes de correspondance d'entités. Au lieu d'apprendre à correspondre des paires d'entités, la correspondance d'entités peut également être formulée comme une tâche de classification multi-classes, exigeant que le modèle reconnaisse chaque entité individuellement. WDC Products est le premier benchmark à proposer à la fois une formulation par paires et une formulation multi-classes pour la même tâche. Nous évaluons WDC Products à l’aide de plusieurs systèmes de correspondance d’état de l’art, notamment Ditto, HierGAT et R-SupCon. Les résultats montrent que tous les systèmes peinent à divers degrés face aux entités inconnues. Ils révèlent également que, pour la correspondance d’entités, l’apprentissage contrastif est plus efficace en termes de données d’apprentissage que les modèles cross-encoders.