Dynamische Routing zwischen Kapseln

Eine Kapsel ist eine Gruppe von Neuronen, deren Aktivitätsvektor die Instanziierungsparameter einer bestimmten Entität, wie zum Beispiel eines Objekts oder eines Objektteils, repräsentiert. Wir verwenden die Länge des Aktivitätsvektors, um die Wahrscheinlichkeit darzustellen, dass die Entität existiert, und seine Ausrichtung, um die Instanziierungsparameter zu repräsentieren. Aktive Kapseln auf einer Ebene machen durch Transformationsmatrizen Vorhersagen für die Instanziierungsparameter von Kapseln auf höheren Ebenen. Wenn mehrere Vorhersagen übereinstimmen, wird eine Kapsel auf einer höheren Ebene aktiv. Wir zeigen, dass ein diskriminativ trainiertes Mehrebenen-Kapselsystem den aktuellen Stand der Technik (state-of-the-art) bei MNIST erreicht und erheblich besser als ein Faltungsnetz (convolutional net) in der Erkennung stark überlappender Ziffern ist. Um diese Ergebnisse zu erzielen, verwenden wir einen iterativen Übereinstimmungs-Routing-Mechanismus: Eine niedrigere Ebene von Kapseln bevorzugt das Senden ihrer Ausgabe an höhere Ebenen von Kapseln, deren Aktivitätsvektoren ein großes Skalarprodukt mit der Vorhersage haben, die von der niedrigeren Ebene stammt.