Gestapelte Kapsel-Autoencoder

Objekte bestehen aus einer Reihe geometrisch angeordneter Teile. Wir stellen einen unüberwachten Kapsel-Autoencoder (SCAE) vor, der explizit geometrische Beziehungen zwischen den Teilen verwendet, um Objekte zu analysieren. Da diese Beziehungen nicht von der Betrachtungsperspektive abhängen, ist unser Modell robust gegenüber Änderungen der Betrachtungsperspektive. Der SCAE besteht aus zwei Stufen. In der ersten Stufe prognostiziert das Modell die Anwesenheit und die Positionierung von Teilmustern direkt aus dem Bild und versucht, das Bild durch geeignete Anordnung der Muster wiederherzustellen. In der zweiten Stufe prognostiziert der SCAE die Parameter einiger Objektkapseln, die dann zur Wiederherstellung der Teilpositionen verwendet werden. Im Gegensatz zu früheren Kapselnetzen wird die Inferenz in diesem Modell amortisiert und durch Standard-Neuronale Netze durchgeführt. Wir stellen fest, dass die Anwesenheit von Objektkapseln hochgradig informativ für die Objektklasse ist, was zu Stand-of-the-Art-Ergebnissen bei unüberwachter Klassifizierung auf SVHN (55 %) und MNIST (98,7 %) führt. Der Quellcode ist unter https://github.com/google-research/google-research/tree/master/stacked_capsule_autoencoders verfügbar.