
要約
物体は幾何学的に配置された部品の集合体で構成されています。本稿では、部品間の幾何学的な関係を明示的に使用して物体について推論する非教師ありカプセルオートエンコーダ(SCAE)を導入します。これらの関係は視点に依存しないため、当モデルは視点変化に対して堅牢です。SCAEは2つの段階から構成されます。第1段階では、モデルが画像から直接部品テンプレートの存在と姿勢を予測し、テンプレートを適切に配置することで画像の再構築を試みます。第2段階では、SCAEが少数の物体カプセルのパラメータを予測し、それらを使用して部品の姿勢を再構築します。このモデルにおける推論は、従来のカプセルネットワークとは異なり、市販のニューラルエンコーダによって行われます。我々は、物体カプセルの存在が物体クラスについて非常に情報量が高いことを発見しました。これにより、SVHN(55%)およびMNIST(98.7%)での非教師あり分類において最先端の結果を得ています。コードは以下のURLで入手可能です: https://github.com/google-research/google-research/tree/master/stacked_capsule_autoencoders