HyperAIHyperAI
il y a 11 jours

SC-Block : Blocage contrastif supervisé au sein des pipelines de résolution d'entités

Alexander Brinkmann, Roee Shraga, Christian Bizer
SC-Block : Blocage contrastif supervisé au sein des pipelines de résolution d'entités
Résumé

L’objectif de la résolution d’entités consiste à identifier, dans plusieurs jeux de données, les enregistrements qui représentent la même entité du monde réel. Toutefois, comparer tous les enregistrements entre les jeux de données peut s’avérer extrêmement coûteux en termes de ressources computationnelles, entraînant des temps d’exécution prolongés. Afin de réduire ces temps, les pipelines de résolution d’entités sont généralement constitués de deux étapes : un blocker, qui applique une méthode peu coûteuse pour sélectionner des paires d’enregistrements candidates, et un matcher, qui identifie ensuite les paires correspondantes à partir de cet ensemble en utilisant des méthodes plus coûteuses. Ce papier présente SC-Block, une méthode de blocking fondée sur l’apprentissage contrastif supervisé pour positionner les enregistrements dans un espace d’embeddings, combinée à une recherche de plus proches voisins pour la construction de l’ensemble candidat. Nous benchmarkons SC-Block contre huit méthodes de blocking de pointe. Pour évaluer le lien entre le temps d’entraînement de SC-Block et la réduction du temps d’exécution global du pipeline de résolution d’entités, nous intégrons SC-Block avec quatre méthodes de matching pour former des pipelines complets. En vue de mesurer le temps d’exécution global, nous déterminons les ensembles candidats atteignant une complétude de 99,5 % des paires, puis les transmettons au matcher. Les résultats montrent que SC-Block parvient à générer des ensembles candidats plus petits, et que les pipelines intégrant SC-Block s’exécutent entre 1,5 et 2 fois plus vite que ceux utilisant d’autres blockers, sans compromettre le score F1. Les blockers sont souvent évalués sur des jeux de données relativement petits, ce qui peut faire passer inaperçus certains effets de temps d’exécution liés à une taille importante du vocabulaire. Afin de mesurer les temps d’exécution dans un cadre plus exigeant, nous introduisons un nouveau jeu de données de benchmark nécessitant le blocking d’un grand nombre d’offres de produits. Sur ce jeu de données à grande échelle, les pipelines utilisant SC-Block combiné au matcher le plus performant s’exécutent jusqu’à 8 fois plus vite que ceux utilisant un autre blocker avec le même matcher, réduisant ainsi le temps d’exécution de 2,5 heures à 18 minutes — un gain clair qui compense largement les 5 minutes nécessaires à l’entraînement de SC-Block.

SC-Block : Blocage contrastif supervisé au sein des pipelines de résolution d'entités | Articles de recherche récents | HyperAI