2 个月前

具有特权信息的共生注意力在以自我为中心的动作识别中的应用

Wang, Xiaohan ; Wu, Yu ; Zhu, Linchao ; Yang, Yi
具有特权信息的共生注意力在以自我为中心的动作识别中的应用
摘要

第一人称视频识别是测试各种交互推理的自然平台。由于第一人称视频数据集中包含大量的动作词汇,近期的研究通常采用双分支结构进行动作识别,即一个分支用于动词分类,另一个分支用于名词分类。然而,动词和名词分支之间的相关性研究大多被忽视了。此外,由于缺乏位置感知注意力机制,这两个分支无法充分利用局部特征。在本文中,我们提出了一种利用特权信息(Privileged Information)的新型共生注意力框架(Symbiotic Attention framework leveraging Privileged information, SAP),用于第一人称视频识别。更精细的位置感知目标检测特征有助于理解演员与物体的交互。我们将这些特征引入动作识别,并将其视为特权信息。我们的框架实现了动词分支、名词分支和特权信息之间的相互通信。这一通信过程不仅将局部细节注入全局特征中,还利用了关于正在进行的动作的空间时间位置的隐式指导信息。我们引入了一种新的共生注意力(Symbiotic Attention, SA)机制来实现有效的通信。该机制首先在一个分支上对检测引导的特征进行归一化处理,以突出另一个分支中的动作相关性信息。SA自适应地增强了三个来源之间的互动。为了进一步促进这种通信,空间关系被揭示出来以选择最相关的动作信息。它能够识别出对分类最有价值和最具区分性的特征。我们通过定量和定性分析验证了SAP的有效性。值得注意的是,该方法在两个大规模的第一人称视频数据集上达到了最先进的性能。

具有特权信息的共生注意力在以自我为中心的动作识别中的应用 | 最新论文 | HyperAI超神经