11日前
二つの頭は一つよりも優れる:視覚的イベント推論のためのハイパーグラフ強化型グラフ推論
{Fei-Yue Wang, Chao Gou, Lan Yan, Wenbo Zheng}

要約
静止画像であっても、人間は与えられた画像の前、現在、その後、さらにはその範囲を超えた視覚的因果関係について、多様な推論を行うことができる。しかし、時間的・空間的制約のため、モデルがこのようなタスク——視覚的出来事の推論(visual event ratiocination)——を達成するのは困難である。これを解決するために、本研究では新たなマルチモーダルモデルである「ハイパーグラフ強化型グラフ推論(Hypergraph-Enhanced Graph Reasoning)」を提案する。まず、同一モダリティからのコンテンツを意味的グラフとして表現し、モダリティ内関係を抽出することで、空間領域における制約を克服する。次に、グラフ自己注意強化(Graph Self-Attention Enhancement)を導入する。一方では、異なるモダリティからの意味的グラフ表現が互いに強化され、モダリティ間関係を時間軸に沿って捉えることが可能になる。他方では、異なる時刻に構築したマルチモーダルハイパーグラフを活用し、個々の意味的グラフ表現を強化することで、時間領域における制約も打破する。本手法は、「二頭のほうが一頭より優れる(two heads are better than one)」という事例を示しており、提案する強化機構を用いることで、意味的グラフ表現がより堅牢になることを示している。最後に、これらの表現を再投影し、その結果を用いてテキスト形式の因果関係記述を生成する。実験結果から、本モデルは他の最先端手法と比較して顕著に高い性能を達成することが示された。