
摘要
自然视频中的事件通常源于演员和物体之间的时空交互,并涉及多种同时发生的活动和物体类别。为了捕捉这种丰富的视觉和语义上下文,我们提出使用两种图结构:(1) 一种带有属性的时空视觉图,其节点对应于演员和物体,边编码不同类型的交互;(2) 一种符号图,用于建模语义关系。我们进一步提出了一种图神经网络,用于在生成的混合图上细化演员、物体及其交互的表示。我们的模型超越了当前假设节点和边类型相同、在固定边权重图上操作且不使用符号图的方法。具体而言,我们的框架具备以下特点:a) 针对不同节点和边类型设计了专门的基于注意力的消息传递函数;b) 使用视觉边特征;c) 将视觉证据与标签关系相结合;d) 在语义空间中进行全局推理。在具有挑战性的视频理解任务上的实验表明,所提出的方法在诸如Charades数据集上的时间动作定位任务中达到了最先进的性能。