Efficient-CapsNet: Capsule-Netzwerk mit Self-Attention-Routing

Tiefgehende konvolutionelle neuronale Netzwerke nutzen, unterstützt durch architektonische Designstrategien, umfangreiche Datenverstärkungstechniken und Schichten mit einer hohen Anzahl an Merkmalskarten, um Objekttransformationen zu integrieren. Dies ist äußerst ineffizient und führt bei großen Datensätzen zu einer massiven Redundanz an Merkmalsdetektoren. Obwohl Capsule-Netze noch in ihren Anfängen stehen, stellen sie eine vielversprechende Lösung dar, um aktuelle konvolutionelle Netzwerke zu erweitern und künstliche visuelle Wahrnehmung mit einem Prozess auszustatten, der affin-invariante Merkmalsveränderungen effizienter kodiert. Tatsächlich sollte ein ordnungsgemäß funktionierendes Capsule-Netzwerk theoretisch aufgrund seiner inhärenten Fähigkeit, sich auf neue Perspektiven zu generalisieren, mit einer deutlich geringeren Anzahl an Parametern höhere Ergebnisse erzielen können. Dennoch wurde diesem zentralen Aspekt bisher wenig Aufmerksamkeit geschenkt. In diesem Paper untersuchen wir die Effizienz von Capsule-Netzen und treiben ihre Leistungsfähigkeit bis an ihre Grenzen, indem wir eine extrem architektonisch reduzierte Version mit gerade einmal 160.000 Parametern entwickeln. Wir zeigen, dass das vorgeschlagene Modell dennoch state-of-the-art Ergebnisse auf drei verschiedenen Datensätzen erzielt, wobei lediglich 2 % der ursprünglichen Anzahl an Parametern von CapsNet verwendet werden. Zudem ersetzen wir die dynamische Routing-Methode durch einen neuartigen, nicht-iterativen und hochgradig parallelen Routing-Algorithmus, der sich problemlos mit einer reduzierten Anzahl an Capsules bewältigen lässt. Ausführliche Experimente mit anderen Capsule-Implementierungen belegen die Wirksamkeit unserer Methode und die Fähigkeit von Capsule-Netzen, visuelle Repräsentationen effizienter zu kodieren, wodurch eine stärkere Generalisierungsfähigkeit erreicht wird.