
摘要
在许多计算机视觉任务中,我们期望输出对输入图像的旋转具有特定的行为。如果这种关系被显式编码,而不是被视为其他变化之一,问题的复杂度将会降低,从而减少所需模型的规模。本文提出了一种新的卷积神经网络(CNN)架构——旋转等变向量场网络(RotEqNet),该架构编码了旋转等变性、不变性和协变性。每个卷积滤波器在多个方向上应用,并返回一个向量场,表示每个空间位置上得分最高的方向的大小和角度。我们开发了一种基于此表示的修改后的卷积算子,以获得深层架构。我们在几个需要对输入图像旋转做出不同响应的问题上测试了RotEqNet:图像分类、生物医学图像分割、方向估计和补丁匹配。在所有情况下,我们展示了RotEqNet在参数数量方面提供了极其紧凑的模型,并且其结果与规模大得多的网络相当。