
摘要
卷积和递归操作都是以一次处理一个局部邻域的方式构建的基本模块。在本文中,我们提出了一种用于捕捉长距离依赖关系的非局部操作作为一类通用的基本模块。该非局部操作受到计算机视觉领域经典非局部均值方法的启发,通过计算所有位置特征的加权和来确定某个位置的响应。这一基本模块可以嵌入到许多计算机视觉架构中。在视频分类任务上,即使没有任何额外的技术手段,我们的非局部模型也能在Kinetics和Charades数据集上与当前的比赛优胜者竞争或超越它们。在静态图像识别方面,我们的非局部模型在COCO系列任务中提高了目标检测/分割和姿态估计的性能。代码可在https://github.com/facebookresearch/video-nonlocal-net 获取。