
摘要
动作是指我们如何与环境互动,包括与其他人员、物体以及自身进行互动。在本文中,我们提出了一种新颖的多模态整体交互变换网络(Holistic Interaction Transformer, HIT),该网络利用了大多数人类动作中至关重要的但常被忽视的手部和姿态信息。所提出的“HIT”网络是一个全面的双模态框架,包含一个RGB流和一个姿态流。每个流分别建模人物、物体和手部的互动。在每个子网络内部,引入了一个模态内聚合模块(Intra-Modality Aggregation, IMA),该模块有选择性地合并各个交互单元。然后,来自每个模态的特征通过一种注意力融合机制(Attentive Fusion Mechanism, AFM)进行结合。最后,我们从时间上下文中提取线索,利用缓存记忆更好地对发生的动作进行分类。我们的方法在J-HMDB、UCF101-24和MultiSports数据集上显著优于先前的方法,并且在AVA数据集上也取得了具有竞争力的结果。代码将在https://github.com/joslefaure/HIT 上提供。