12 天前

两个头比一个好:基于超图增强的图推理用于视觉事件推理

{Fei-Yue Wang, Chao Gou, Lan Yan, Wenbo Zheng}
两个头比一个好:基于超图增强的图推理用于视觉事件推理
摘要

即使面对静态图像,人类也能够推理性地描述图像所呈现事件之前、当下及之后,乃至超越图像内容的因果关系。然而,由于时空维度的限制,现有模型难以实现此类任务——即视觉事件推理。为此,我们提出一种新型多模态模型:超图增强图推理(Hypergraph-Enhanced Graph Reasoning)。该模型首先将同一模态的内容表示为语义图,并挖掘模态内部的关联关系,从而突破空间维度的限制。随后,我们引入图自注意力增强机制:一方面,该机制使不同模态的语义图表示能够相互增强,捕捉跨模态间的关联关系;另一方面,它利用我们在不同时刻构建的多模态超图,进一步提升各语义图的表示能力,从而突破时间维度的限制。我们的方法体现了“两个头比一个好”的思想——在所提出的增强机制辅助下,语义图表示相较于未使用该机制的情况更具鲁棒性。最后,我们将这些增强后的表示重新投影,并基于其输出生成文本形式的因果描述。实验结果表明,与现有最先进方法相比,本模型在性能上显著优于其他方法。

两个头比一个好:基于超图增强的图推理用于视觉事件推理 | 最新论文 | HyperAI超神经