Appariement d'entités profondes avec des modèles linguistiques pré-entraînés

Nous présentons Ditto, un nouveau système de correspondance d'entités fondé sur des modèles linguistiques pré-entraînés basés sur les Transformers. Nous adaptons et reformulons la correspondance d'entités (EM) comme un problème de classification de paires de séquences, afin d’exploiter efficacement ces modèles grâce à une architecture simple. Nos expérimentations montrent qu’une application directe de modèles linguistiques tels que BERT, DistilBERT ou RoBERTa, pré-entraînés sur de grandes corpora textuels, améliore déjà significativement la qualité de correspondance, dépassant les résultats précédents de l’état de l’art (SOTA) de jusqu’à 29 % en score F1 sur des jeux de données standard. Nous avons également développé trois techniques d’optimisation pour renforcer davantage la capacité de correspondance de Ditto. Ditto permet d’intégrer des connaissances spécifiques au domaine en mettant en évidence les éléments d’entrée les plus pertinents pour la prise de décision en correspondance. Il résume également les chaînes de caractères trop longues afin de ne conserver que les informations essentielles, utilisées pour la correspondance. Enfin, Ditto adopte une technique de pointe en augmentation de données pour les textes, adaptée à la correspondance d’entités, afin d’enrichir les données d’entraînement avec des exemples difficiles. Ainsi, Ditto est contraint d’apprendre à traiter des cas complexes, ce qui améliore sa capacité de correspondance. Ces optimisations permettent d’augmenter encore les performances de Ditto de jusqu’à 9,8 %. Peut-être de manière plus surprenante, nous démontrons que Ditto peut atteindre les résultats précédents de l’état de l’art avec au plus la moitié des données étiquetées. Enfin, nous illustrons l’efficacité de Ditto sur une tâche réelle à grande échelle. En correspondant deux jeux de données d’entreprises comprenant respectivement 789 000 et 412 000 enregistrements, Ditto atteint un score F1 élevé de 96,5 %.