2 个月前

演化的时空神经架构用于视频

AJ Piergiovanni; Anelia Angelova; Alexander Toshev; Michael S. Ryoo
演化的时空神经架构用于视频
摘要

我们提出了一种新的方法,用于发现能够捕捉视频中丰富时空信息的卷积神经网络(CNN)架构。以往的研究通过利用3D卷积,手动设计视频CNN架构,取得了令人鼓舞的结果。在此基础上,我们开发了一种新颖的进化搜索算法,该算法能够自动探索具有不同层类型和组合的模型,以联合学习视频表示中的空间和时间方面的交互作用。我们通过将其应用于两种元架构来证明该算法的通用性,从而获得了优于手动设计架构的新架构。此外,我们提出了一种新的组件——iTGM层(Interactive Temporal Graph Module),它能更高效地利用参数,使得在更长时间范围内学习时空交互作用成为可能。进化算法通常倾向于选择iTGM层,并允许构建成本效益更高的网络。所提出的这种方法发现了之前未知的新颖且多样的视频架构。更重要的是,这些新架构不仅比先前的模型更准确,而且速度更快,在我们测试的多个数据集上均超过了现有最佳结果,包括HMDB、Kinetics和Moments in Time数据集。我们将开源代码和模型,以鼓励未来模型的发展。