HyperAIHyperAI
vor 2 Monaten

Batch-normalisierte Maxout Netzwerke in Netzwerken

Jia-Ren Chang; Yong-Sheng Chen
Batch-normalisierte Maxout Netzwerke in Netzwerken
Abstract

Dieses Papier berichtet über eine neuartige tiefen Architektur, die als Maxout Network In Network (MIN) bezeichnet wird. Diese Architektur kann die Modellunterscheidbarkeit verbessern und den Prozess der Informationsabstraktion innerhalb des Rezeptorfelds erleichtern. Das vorgeschlagene Netzwerk verwendet das Framework der kürzlich entwickelten Network In Network-Struktur, bei der ein universeller Approximator, ein mehrschichtiges Perzeptron (MLP) mit ReLU-Einheiten, über die Eingabe gleitet, um Merkmale zu extrahieren. Anstelle eines herkömmlichen MLP verwenden wir ein maxout-MLP, um eine Vielzahl von stückweise linearen Aktivierungsfunktionen zu lernen und das Problem verschwindender Gradienten zu mildern, das bei der Verwendung von ReLU-Einheiten auftreten kann. Darüber hinaus wird Batch-Normalisierung angewendet, um die Sättigung der maxout-Einheiten durch Vorbedingung des Modells zu reduzieren, und Dropout wird verwendet, um das Überanpassen zu verhindern. Schließlich werden in allen Pooling-Schichten Mittelwert-Pooling (average pooling) verwendet, um das maxout-MLP zu regularisieren und so die Informationsabstraktion in jedem Rezeptorfeld zu erleichtern, während gleichzeitig Positionsschwankungen des Objekts toleriert werden können. Da Mittelwert-Pooling alle Merkmale im lokalen Patch erhält, kann das vorgeschlagene MIN-Modell während des Trainings die Unterdrückung irrelevanter Informationen erzwingen. Unsere Experimente zeigten eine erstklassige Klassifikationsleistung beim Einsatz des MIN-Modells auf den Datensätzen MNIST, CIFAR-10 und CIFAR-100 sowie vergleichbare Leistungen für den SVHN-Datensatz.