HyperAIHyperAI
vor 11 Tagen

Multimodales Siamese-Netzwerk für die Entitätsausrichtung

{Enhong Chen, Nicholas Jing Yuan, Zhefeng Wang, Han Wu, Tong Xu, Zhi Li, Liyi Chen}
Abstract

Die rasante Entwicklung multimodaler Wissensgraphen (MMKGs) hat einen dringenden Bedarf an multimodalen Entitätsausrichtungstechniken geschaffen, die die Integration mehrerer MMKGs aus unterschiedlichen Datensourcen ermöglichen. Leider nutzen bisherige Ansätze multimodales Wissen lediglich durch heuristische Kombination einmodaler Merkmals-Embeddings. Dadurch bleiben intermodale Hinweise, die im multimodalen Wissen verborgen liegen, weitgehend unberücksichtigt. Um dieses Problem anzugehen, schlagen wir in diesem Artikel ein neuartiges multimodales Siamese-Netzwerk für die Entitätsausrichtung (MSNEA) vor, das Entitäten in verschiedenen MMKGs ausrichtet und dabei den intermodalen Effekt gezielt ausnutzt, um multimodales Wissen umfassend zu erschließen. Konkret entwickeln wir zunächst ein Modul zur multimodalen Wissens-Embedding, das visuelle, relationale und attributive Merkmale von Entitäten extrahiert, um umfassende Entitätsrepräsentationen für unterschiedliche MMKGs zu generieren. Dabei setzen wir intermodale Verstärkungsmechanismen ein, um visuelle Merkmale zur Unterstützung des Lernens relationaler Merkmale zu nutzen und adaptiv Aufmerksamkeitsgewichte zu bestimmen, um wertvolle Attribute für die Ausrichtung zu erfassen. Anschließend entwerfen wir ein multimodales kontrastives Lernmodul, das eine intermodale Verstärkungsfusion erreicht, ohne dass schwächere Modi übermäßig beeinflussend wirken. Experimentelle Ergebnisse auf zwei öffentlichen Datensätzen zeigen, dass unser vorgeschlagenes MSNEA im Vergleich zu konkurrenzfähigen Baselines eine state-of-the-art-Leistung mit deutlichem Abstand erzielt.

Multimodales Siamese-Netzwerk für die Entitätsausrichtung | Neueste Forschungsarbeiten | HyperAI