2 个月前

基于骨架的交互行为识别中的时空令牌注意力网络

Wen, Yuhang ; Tang, Zixuan ; Pang, Yunsheng ; Ding, Beichen ; Liu, Mengyuan
基于骨架的交互行为识别中的时空令牌注意力网络
摘要

识别交互行为在人机交互和协作中发挥着重要作用。以往的方法通过使用后期融合和共同注意机制来捕捉交互关系,但这些方法的学习能力有限或难以适应更多的交互实体。假设每个实体的先验知识已经知晓的情况下,这些方法也缺乏对更加普遍的场景进行评估,以应对主体的多样性。为了解决这些问题,我们提出了一种交互时空标记注意力网络(Interactive Spatiotemporal Token Attention Network, ISTA-Net),该网络能够同时建模空间、时间和交互关系。具体而言,我们的网络包含一个分词器,用于划分交互时空标记(Interactive Spatiotemporal Tokens, ISTs),这是一种统一表示多个不同实体运动的方式。通过扩展实体维度,ISTs 提供了更好的交互表示。为了在 ISTs 的三个维度上联合学习,设计了多头自注意力块与三维卷积相结合的方法来捕捉标记之间的相关性。在建模相关性时,严格的实体顺序通常对于识别交互行为并不重要。为此,我们提出了实体重排(Entity Rearrangement)技术,以消除 ISTs 中可互换实体的有序性。我们在四个数据集上进行了广泛的实验,验证了 ISTA-Net 的有效性,并且其性能超过了现有的最先进方法。我们的代码已公开发布在 https://github.com/Necolizer/ISTA-Net

基于骨架的交互行为识别中的时空令牌注意力网络 | 最新论文 | HyperAI超神经