Appariement d'entités à l'aide de grands modèles linguistiques

L'appariement d'entités est la tâche qui consiste à déterminer si deux descriptions d'entités font référence à la même entité du monde réel. L'appariement d'entités est une étape centrale dans la plupart des pipelines d'intégration de données. De nombreuses méthodes d'appariement d'entités de pointe s'appuient sur des modèles de langage pré-entraînés (PLMs) tels que BERT ou RoBERTa. Deux principaux inconvénients de ces modèles pour l'appariement d'entités sont que (i) les modèles nécessitent de grandes quantités de données d'entraînement spécifiques à la tâche et (ii) les modèles affinés ne sont pas robustes face aux entités hors distribution. Cet article examine l'utilisation de grands modèles de langage génératifs (LLMs) comme alternative moins dépendante des données d'entraînement spécifiques à la tâche et plus robuste aux matchers basés sur des PLMs. L'étude couvre des LLMs hébergés et open source qui peuvent être exécutés localement. Nous évaluons ces modèles dans un scénario zéro-shot et un scénario où des données d'entraînement spécifiques à la tâche sont disponibles. Nous comparons différentes conceptions de prompts et l'influence des prompts sur les modèles. Nous montrons qu'il n'y a pas de prompt optimal unique, mais que le prompt doit être ajusté pour chaque combinaison modèle/jeu de données. Nous examinons également (i) la sélection de démonstrations en contexte, (ii) la génération de règles d'appariement, ainsi que (iii) l'affinement des LLMs en utilisant le même ensemble de données d'entraînement. Nos expériences montrent que les meilleurs LLMs n'ont besoin d'aucun ou seulement de quelques exemples d'entraînement pour performer aussi bien que des PLMs affinés avec plusieurs milliers d'exemples. Les matchers basés sur des LLMs présentent également une plus grande robustesse face aux entités inconnues. Nous montrons que GPT4 peut générer des explications structurées pour les décisions d'appariement et identifier automatiquement les causes potentielles des erreurs d'appariement en analysant les explications des mauvaises décisions. Nous démontrons que le modèle peut produire des descriptions textuelles pertinentes des classes d'erreurs identifiées, ce qui peut aider les ingénieurs en données à améliorer les pipelines d'appariement d'entités.