Entraînement parallèle de modèles d’embedding de graphes de connaissances : Une comparaison de techniques
Les modèles d’embedding de graphe de connaissances (KGE) représentent les entités et les relations d’un graphe de connaissances (KG) à l’aide de représentations continues denses appelées embeddings. Ces méthodes KGE ont récemment gagné en popularité pour des tâches telles que la complétion de graphes de connaissances et le raisonnement, ainsi que pour fournir des représentations d’entités adaptées aux tâches d’apprentissage supervisé ultérieures. Alors que la majeure partie de la littérature disponible se concentre sur des KG de petite taille, plusieurs cadres ont récemment été proposés afin de former des modèles KGE à grande échelle en exploitant la parallélisation sur plusieurs GPU ou machines. Jusqu’à présent, les avantages et inconvénients des différentes techniques de parallélisation n’ont pas été étudiés de manière exhaustive. Dans ce papier, nous présentons une étude expérimentale dans laquelle nous avons reimplémenté, analysé et amélioré les techniques disponibles dans un cadre computationnel commun. Nous avons constaté que les méthodologies d’évaluation utilisées dans les travaux antérieurs sont souvent non comparables et peuvent induire en erreur, et que la plupart des méthodes de formation actuellement mises en œuvre ont tendance à nuire à la qualité des embeddings. Nous proposons une variation simple mais efficace de la technique de stratification utilisée par PyTorch BigGraph afin de pallier ce problème. De plus, un partitionnement aléatoire basique peut s’avérer une solution efficace, voire la meilleure, lorsqu’il est combiné à des techniques d’échantillonnage appropriées. En définitive, nous montrons qu’un entraînement parallèle efficace et performant de modèles KGE à grande échelle est bel et bien réalisable, à condition de choisir soigneusement les techniques adaptées.