vor 17 Tagen

Tiefes Regularisieren und direktes Trainieren der inneren Schichten von neuronalen Netzen mit Kernel Flows

Gene Ryan Yoo, Houman Owhadi

Abstract

Wir stellen eine neue Regularisierungsmethode für künstliche neuronale Netze (ANNs) vor, die auf Kernel Flows (KFs) basiert. KFs wurden als Methode zur Kernel-Auswahl bei Regression/Kriging eingeführt, wobei die Minimierung des Genauigkeitsverlusts bei Halbierung der Anzahl der Interpolationspunkte in zufälligen Batch-Teilmengen des Datensatzes zugrunde liegt. Bezeichnet man die funktionale Darstellung der zusammengesetzten Struktur des ANNs als $f_θ(x) = \big(f^{(n)}{θ_n}\circ f^{(n-1)}{θ_{n-1}} \circ \dots \circ f^{(1)}{θ_1}\big)(x)$, so definieren die Ausgaben der inneren Schichten $h^{(i)}(x) = \big(f^{(i)}{θ_i}\circ f^{(i-1)}{θ{i-1}} \circ \dots \circ f^{(1)}_{θ_1}\big)(x)$ eine Hierarchie von Merkmalsabbildungen und Kerne $k^{(i)}(x,x')=\exp(- γ_i \|h^{(i)}(x)-h^{(i)}(x')\|_2^2)$. In Kombination mit einem Datensatz-Batch erzeugen diese Kerne KF-Verluste $e_2^{(i)}$ (den $L^2$-Regressionsfehler, der entsteht, wenn eine zufällige Hälfte des Batches zur Vorhersage der anderen Hälfte verwendet wird), die von den Parametern der inneren Schichten $θ_1,\ldots,θ_i$ (sowie von $γ_i$) abhängen. Die vorgeschlagene Methode besteht einfach darin, eine Teilmenge dieser KF-Verluste mit einem klassischen Ausgabeverlust zu aggregieren. Wir testen die Methode an Convolutional Neural Networks (CNNs) und Wide Residual Networks (WRNs) ohne Veränderung der Architektur oder des Ausgabeklassifiers und berichten über reduzierte Testfehler, verkleinerte Generalisierungslücken und erhöhte Robustheit gegenüber Verteilungsverschiebungen, ohne signifikanten Anstieg der Rechenkomplexität. Wir vermuten, dass diese Ergebnisse darauf zurückzuführen sind, dass der herkömmliche Trainingsprozess lediglich eine lineare Funktion (einen verallgemeinerten Moment) der durch den Datensatz definierten empirischen Verteilung nutzt und unter Überparametrisierung anfällig für das Einfrieren im Neural Tangent Kernel-Regime ist, während die vorgeschlagene Verlustfunktion – als nichtlineare Funktion der empirischen Verteilung definiert – effektiv den zugrundeliegenden Kernel, der durch das CNN definiert ist, jenseits der Datenregression mit diesem Kernel trainiert.