AutoSF : Recherche de fonctions de score pour l'embedding de graphes de connaissances

Les fonctions de scoring (SFs), qui mesurent la plausibilité des triplets dans les graphes de connaissances (KG), sont devenues le cœur des plongements de KG. Au cours des dernières années, de nombreuses SFs, visant à capturer différents types de relations dans les KG, ont été conçues par les humains. Cependant, comme les relations peuvent présenter des motifs complexes qui sont difficiles à inférer avant l'entraînement, aucune d'entre elles ne peut constamment surpasser les autres sur les ensembles de données de référence existants. Dans cet article, inspirés par les récents succès de l'apprentissage automatique automatisé (AutoML), nous proposons de concevoir automatiquement des SFs (AutoSF) pour différents KG en utilisant des techniques d'AutoML. Cependant, il n'est pas trivial d'explorer ici des informations spécifiques au domaine afin de rendre AutoSF efficace et performante. Nous identifions tout d'abord une représentation unifiée sur les SFs couramment utilisées, ce qui aide à définir un espace de recherche pour AutoSF. Ensuite, nous proposons un algorithme glouton pour rechercher efficacement dans cet espace. L'algorithme est encore accéléré par un filtre et un prédicteur, qui permettent d'éviter la formation répétée de SFs ayant la même capacité expressive et d'éliminer les candidats médiocres pendant la recherche avant l'entraînement du modèle. Enfin, nous menons des expériences approfondies sur des ensembles de données de référence. Les résultats en prédiction de liens et en classification de triplets montrent que les SFs recherchées par AutoSF sont dépendantes du KG, nouvelles dans la littérature, et surpassent les SFs d'avant-garde conçues par les humains.