Raisonnement analogique multimodal sur des graphes de connaissances

Le raisonnement analogique constitue une composante fondamentale de la cognition humaine et occupe une place importante dans divers domaines. Toutefois, les études antérieures se sont principalement concentrées sur le raisonnement analogique à modalité unique, en négligeant l’exploitation des connaissances structurelles. Notamment, les recherches en psychologie cognitive ont démontré que les informations provenant de sources multimodales permettent généralement un transfert cognitif plus puissant que celles issues d’une seule modalité. À cet effet, nous introduisons une nouvelle tâche de raisonnement analogique multimodal sur les graphes de connaissances, qui requiert une capacité de raisonnement multimodal appuyée par des connaissances contextuelles. Plus précisément, nous construisons un jeu de données de raisonnement analogique multimodal (MARS) ainsi qu’un graphe de connaissances multimodal appelé MarKG. Nous évaluons notre approche à l’aide de modèles d’embedding de graphes de connaissances multimodaux et de baselines fondées sur des Transformers pré-entraînés, mettant en évidence les défis potentiels posés par cette tâche. Nous proposons par ailleurs un cadre novateur de raisonnement analogique multimodal, indépendant du modèle (model-agnostic), basé sur les Transformers (MarT), inspiré par la théorie de l’alignement structurel. Ce cadre permet d’obtenir de meilleures performances. Le code source et les jeux de données sont disponibles à l’adresse suivante : https://github.com/zjunlp/MKG_Analogy.