Mehrgleichungsgegenüberstellungslernen für Entitätsausrichtung

Die mehrmodale Entitätsausrichtung (entity alignment) strebt danach, äquivalente Entitäten zwischen zwei verschiedenen mehrmodalen Wissensgraphen zu identifizieren, die sowohl strukturelle Tripel als auch mit den Entitäten assoziierte Bilder umfassen. Die meisten bisherigen Arbeiten konzentrieren sich darauf, wie Informationen aus verschiedenen Modalitäten genutzt und kodiert werden können, während es aufgrund der Modalitätsheterogenität nicht trivial ist, mehrmodales Wissen in der Entitätsausrichtung zu nutzen. In dieser Arbeit schlagen wir MCLEA vor, ein Modell zur mehrmodalen kontrastiven Lernbasierten Entitätsausrichtung (Multi-modal Contrastive Learning based Entity Alignment), um effektive gemeinsame Repräsentationen für die mehrmodale Entitätsausrichtung zu erlangen. Im Gegensatz zu früheren Arbeiten berücksichtigt MCLEA die aufgabenorientierte Modalität und modelliert die intermodalen Beziehungen für jede Entitätsrepräsentation. Insbesondere lernt MCLEA zunächst mehrere individuelle Repräsentationen aus verschiedenen Modalitäten und führt dann kontrastives Lernen durch, um intra- und intermodale Interaktionen gemeinsam zu modellieren. Umfangreiche experimentelle Ergebnisse zeigen, dass MCLEA unter sowohl überwachten als auch unüberwachten Bedingungen auf öffentlichen Datensätzen den aktuellen Stand der Technik übertreffen kann.