
摘要
物体由一组几何排列的部件组成。我们引入了一种无监督胶囊自编码器(SCAE),该模型显式地利用部件之间的几何关系来推理物体。由于这些关系不依赖于视角,因此我们的模型对视角变化具有鲁棒性。SCAE 包含两个阶段。在第一阶段,模型直接从图像中预测部件模板的存在性和姿态,并通过适当地排列这些模板来尝试重建图像。在第二阶段,SCAE 预测少数几个物体胶囊的参数,然后利用这些参数来重建部件的姿态。与之前的胶囊网络不同,该模型中的推理过程是摊销化的,并由现成的神经编码器执行。我们发现,物体胶囊的存在性对于物体类别具有很高的信息量,这使得我们在 SVHN(55%)和 MNIST(98.7%)数据集上取得了无监督分类的最先进结果。代码可在以下地址获取:https://github.com/google-research/google-research/tree/master/stacked_capsule_autoencoders