2 个月前

将人类注视融入自我中心活动识别的注意力机制

Min, Kyle ; Corso, Jason J.
将人类注视融入自我中心活动识别的注意力机制
摘要

众所周知,人类的注视点携带了大量关于视觉注意的重要信息。然而,在将注视数据融入深度神经网络的注意机制中时,存在三个主要难题:1)由于眨眼和快速眼球运动,注视固定点可能会出现测量误差;2)尚不清楚注视数据在何时以及多大程度上与视觉注意相关;3)在许多现实场景中,注视数据并不总是可用的。在这项工作中,我们提出了一种有效的概率方法,将人类的注视点整合到以自我为中心的行为识别的空间-时间注意机制中。具体而言,我们将注视固定点的位置表示为结构化的离散潜在变量,以建模其不确定性。此外,我们使用变分方法对注视固定点的分布进行建模。在训练过程中学习到的注视分布使得测试时不再需要真实的注释数据(即注视位置的真实标签),因为这些标签可以从已学习的注视分布中预测出来。预测出的注视位置用于提供有信息量的注意力线索,从而提高识别性能。我们的方法在EGTEA数据集上超越了所有先前的最佳方法,该数据集是一个大规模的以自我为中心的行为识别数据集,并提供了注视测量。我们还进行了消融研究和定性分析,以证明我们的注意机制的有效性。

将人类注视融入自我中心活动识别的注意力机制 | 最新论文 | HyperAI超神经