vor 2 Monaten

0/1 Tiefneuronale Netze durch Blockkoordinatenabstieg

Zhang, Hui ; Zhou, Shenglong ; Li, Geoffrey Ye ; Xiu, Naihua

Abstract

Die Sprungfunktion ist eine der einfachsten und natürlichsten Aktivierungsfunktionen für tiefe Neuronale Netze (Tiefe Neuronale Netze, DNNs). Da sie für positive Variablen den Wert 1 und für alle anderen den Wert 0 annimmt, behindern ihre intrinsischen Eigenschaften (z.B. Diskontinuität und fehlende nutzbare Informationen über Subgradienten) ihre Entwicklung seit Jahrzehnten. Obwohl es eine beeindruckende Menge an Arbeiten gibt, die sich mit dem Design von DNNs mit stetigen Aktivierungsfunktionen befassen, die als Surrogate der Sprungfunktion angesehen werden können, besitzt sie immer noch einige vorteilhafte Eigenschaften, wie z.B. vollständige Robustheit gegenüber Ausreißern und die Fähigkeit, die besten lerntheoretischen Garantien für die Vorhersagegenauigkeit zu erreichen. Daher zielt dieses Papier darauf ab, DNNs mit der Sprungfunktion als Aktivierungsfunktion zu trainieren (als 0/1-DNNs bezeichnet). Wir reformulieren zunächst 0/1-DNNs als ein unbeschränktes Optimierungsproblem und lösen es dann mittels einer blockweisen Koordinatenabstiegs-Methode (Block Coordinate Descent, BCD). Darüber hinaus erlangen wir geschlossene Lösungen für die Teilprobleme des BCD sowie dessen Konvergenzeigenschaften. Zudem integrieren wir $\ell_{2,0}$-Regularisierung in das 0/1-DNN, um den Trainingsprozess zu beschleunigen und die Netzwerkgröße zu komprimieren. Das vorgeschlagene Verfahren erzielt dabei hohe Leistungen bei der Klassifizierung der Datensätze MNIST und Fashion-MNIST. Das vorgeschlagene Verfahren zeigt darüber hinaus eine gute Leistung bei der Klassifizierung der Datensätze MNIST, Fashion-MNIST, CIFAR-10 und CIFAR-100.