17 天前
AssembleNet++:通过注意力连接整合模态表征
Michael S. Ryoo, AJ Piergiovanni, Juhana Kangaspunta, Anelia Angelova

摘要
我们提出了一类强大的视频模型,具备以下能力:(i)学习语义物体信息与原始外观及运动特征之间的交互关系;(ii)在网络的每个卷积块中引入注意力机制,以更有效地捕捉特征的重要性。我们引入了一种名为“peer-attention”的新型网络组件,该组件通过另一卷积块或输入模态动态学习注意力权重。即使在未进行预训练的情况下,我们的模型在标准公开的连续视频行为识别数据集上仍优于此前的先进方法,达到了新的最先进水平。我们进一步验证了来自物体模态的神经连接以及peer-attention机制具有广泛的适用性,能够有效提升多种现有架构的性能。我们将该模型明确命名为AssembleNet++。代码将公开于:https://sites.google.com/corp/view/assemblenet/