要約
マルチモーダル知識グラフ(MMKG)の急成長に伴い、複数の独立したデータソースから得られるMMKGを統合するためのマルチモーダルエンティティアライメント技術への需要が高まっている。しかし、従来の手法は単モーダル特徴埋め込みのヒューリスティックな統合に依存しており、マルチモーダル知識に内在するモーダル間の有用な手がかり(inter-modal cues)が大きく無視されがちである。この問題に対処するため、本論文では、異なるMMKG間のエンティティをアライメントするための新規なマルチモーダルシメイズネットワーク(MSNEA)を提案する。本手法では、モーダル間効果(inter-modal effect)の活用により、マルチモーダル知識を包括的に活用できる。具体的には、まずエンティティの視覚的特徴、関係的特徴、属性特徴を抽出し、それぞれのMMKGに対して包括的なエンティティ表現を生成するためのマルチモーダル知識埋め込みモジュールを設計する。このプロセスにおいて、視覚的特徴を用いて関係的特徴の学習をガイドし、アライメントに有用な属性を適応的に注目(attention)する重みを割り当てるためのモーダル間強化機構を導入する。その後、弱いモーダルが全体に過剰な影響を与えるのを回避しつつ、モーダル間強化融合を実現するためのマルチモーダルコントラスティブ学習モジュールを設計する。公開データセット2つにおける実験結果から、提案手法MSNEAは、競合するベースラインと比較して顕著な性能向上を達成し、最先端の性能を実現することが示された。