
摘要
本文旨在通过探索多人之间的长期相互动态关系来解决视频中的人际互动识别问题。近年来,长短期记忆网络(Long Short-Term Memory, LSTM)因其能够捕捉一定时间范围内的运动信息而成为单人动作识别中建模个体动态的热门选择。然而,现有的递归神经网络(Recurrent Neural Network, RNN)模型仅通过简单组合所有个体的动态或将它们作为一个整体进行建模,来捕捉人际互动的动态变化。这些模型忽视了人际互动随时间变化的相互动态关系。为此,我们提出了一种新颖的分层长短期并发记忆网络(Hierarchical Long Short-Term Concurrent Memory, H-LSTCM),用于建模一组人之间的长期相互动态关系,以实现对人际互动的识别。具体而言,我们首先将每个人的静态特征输入到单人LSTM中学习单人的动态特征。随后,所有单人LSTM单元的输出被送入一个新颖的并发LSTM(Concurrent LSTM, Co-LSTM)单元,该单元主要由多个子记忆单元、一个新的细胞门和一个新的共记忆细胞组成。在Co-LSTM单元中,每个子记忆单元存储个体的运动信息,而Co-LSTM单元则通过细胞门和共记忆细胞分别选择性地整合并存储多个人之间相互作用的运动信息。我们在四个公开数据集上进行了广泛的实验,验证了所提出的H-LSTCM的有效性,并将其与基线方法和最先进方法进行了对比。