2 个月前

注意力就是一切:为以自我为中心的活动识别确定对象中心的注意力机制

Sudhakaran, Swathikiran ; Lanz, Oswald
注意力就是一切:为以自我为中心的活动识别确定对象中心的注意力机制
摘要

本文提出了一种用于第一人称活动识别的端到端可训练深度神经网络模型。我们的模型基于以下观察:第一人称活动在很大程度上由视频中的物体及其位置特征所定义。基于这一观察,我们开发了一种空间注意力机制,使网络能够关注与当前考虑的活动相关的物体所在区域。我们利用预训练用于通用图像识别的卷积神经网络(CNN)生成的类别特定激活图,为每一帧学习高度专业化的注意力图,并使用这些图对视频进行时空编码,采用卷积长短期记忆网络(Convolutional LSTM)。我们的模型在弱监督环境下进行训练,仅使用原始视频级别的活动类别标签。尽管如此,在标准的第一人称活动基准测试中,我们的模型在识别准确率方面比目前最佳的方法高出多达6个百分点,而后者在训练过程中依赖于手动分割和物体位置的强监督。我们对网络生成的注意力图进行了视觉分析,结果表明该网络成功地识别了视频帧中存在的相关物体,这可能解释了其强大的识别性能。此外,我们还讨论了关于设计选择的广泛消融分析。

注意力就是一切:为以自我为中心的活动识别确定对象中心的注意力机制 | 最新论文 | HyperAI超神经