Multimodale analogische Schlussfolgerung über Wissensgraphen

Analogisches Schließen ist grundlegend für die menschliche Kognition und spielt in verschiedenen Bereichen eine bedeutende Rolle. Bisherige Studien konzentrieren sich jedoch hauptsächlich auf analogisches Schließen in einer einzigen Modalität und vernachlässigen dabei die Nutzung struktureller Wissensinformationen. Insbesondere hat die kognitive Psychologie gezeigt, dass Informationen aus mehreren Modalitäten stets eine stärkere kognitive Übertragung ermöglichen als Informationen aus einer einzigen Modalität. In diesem Zusammenhang führen wir die neue Aufgabe des multimodalen analogischen Schließens über Wissensgraphen ein, die eine multimodale Schlussfolgerungsfähigkeit unter Einbeziehung von Hintergrundwissen erfordert. Konkret erstellen wir eine multimodale Datensammlung für analogisches Schließen (MARS) sowie einen multimodalen Wissensgraphen namens MarKG. Wir evaluieren unsere Ansätze mit multimodalen Wissensgraphen-Embedding-Modellen und vortrainierten Transformer-Baselines und zeigen so die potenziellen Herausforderungen der vorgeschlagenen Aufgabe auf. Darüber hinaus entwickeln wir einen neuartigen, modellunabhängigen Rahmen für multimodales analoges Schließen mit Transformer (MarT), der sich an der Strukturabbildungstheorie orientiert und eine bessere Leistung erzielt. Der Quellcode und die Datensätze sind unter https://github.com/zjunlp/MKG_Analogy verfügbar.