2 个月前

胶囊之间的动态路由

Sara Sabour; Nicholas Frosst; Geoffrey E Hinton
胶囊之间的动态路由
摘要

胶囊是一种神经元组,其活动向量表示特定实体(如对象或对象部分)的实例化参数。我们使用活动向量的长度来表示该实体存在的概率,而其方向则表示实例化参数。较低层级的活跃胶囊通过变换矩阵对较高层级胶囊的实例化参数进行预测。当多个预测结果一致时,较高层级的胶囊变得活跃。我们展示了经过判别训练的多层胶囊系统在MNIST数据集上达到了最先进的性能,并且在识别高度重叠的数字方面明显优于卷积网络。为了获得这些结果,我们采用了一种迭代路由协议机制:较低层级的胶囊倾向于将其输出发送给那些活动向量与来自较低层级胶囊的预测具有较大标量积的较高层级胶囊。