Dichte und Vielfältige Kapselnetze: Die Kapseln besser lernen lassen

In den letzten Jahren hat das Interesse an Methoden des tiefen Lernens (Deep Learning) exponentiell zugenommen, wobei die Genauigkeit rapide verbessert und die rechnerische Komplexität reduziert wurde. Insbesondere haben Architekturen, die auf Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) basieren, herausragende Leistungen bei Aufgaben der Bildklassifizierung und Objekterkennung erbracht. Kürzlich konnten Capsule Networks (CapsNet) durch die Bewältigung einer inhärenten Limitation von CNNs im Codieren von Pose und Deformation eine signifikante Steigerung der Leistung erreichen. Angeregt durch diesen Fortschritt stellten wir uns die Frage: Können wir besser werden? Wir schlagen Dense Capsule Networks (DCNet) und Diverse Capsule Networks (DCNet++) vor. Die beiden vorgeschlagenen Frameworks passen CapsNet an, indem sie die standardmäßigen Faltungsschichten durch dicht verbundene Faltungen ersetzen. Dies ermöglicht es, Merkmalskarten (Feature Maps), die von verschiedenen Schichten gelernt wurden, bei der Bildung der primären Kapseln zu integrieren. DCNet fügt im Wesentlichen ein tieferes Faltungsnetz hinzu, was zur Lernung diskriminativer Merkmalskarten führt. Zudem verwendet DCNet++ eine hierarchische Architektur, um Kapseln zu lernen, die räumliche Informationen in einem feiner werdenden bis grober werdenden Verfahren repräsentieren, was es effizienter für das Lernen komplexer Daten macht. Experimente zur Bildklassifizierung mit Standarddatensätzen zeigen die Effektivität der vorgeschlagenen Architekturen. DCNet erreicht eine Spitzenleistung von 99,75 % auf dem MNIST-Datensatz mit einem zwanzigfachen Rückgang der Gesamtanzahl der Trainingsiterationen im Vergleich zum konventionellen CapsNet. Darüber hinaus übertrifft DCNet++ das CapsNet auf dem SVHN-Datensatz mit 96,90 % und überflügelt ein Ensemble aus sieben CapsNet-Modellen auf CIFAR-10 um 0,31 % bei gleichzeitig siebenfach reduzierter Anzahl an Parametern.