HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefes Regularisieren und direktes Trainieren der inneren Schichten von neuronalen Netzen mit Kernel Flows

Gene Ryan Yoo Houman Owhadi

Zusammenfassung

Wir stellen eine neue Regularisierungsmethode für künstliche neuronale Netze (ANNs) vor, die auf Kernel Flows (KFs) basiert. KFs wurden als Methode zur Kernel-Auswahl bei Regression/Kriging eingeführt, wobei die Minimierung des Genauigkeitsverlusts bei Halbierung der Anzahl der Interpolationspunkte in zufälligen Batch-Teilmengen des Datensatzes zugrunde liegt. Bezeichnet man die funktionale Darstellung der zusammengesetzten Struktur des ANNs als fθ(x)=(f(n)θnf(n1)θn1f(1)θ1)(x)f_θ(x) = \big(f^{(n)}{θ_n}\circ f^{(n-1)}{θ_{n-1}} \circ \dots \circ f^{(1)}{θ_1}\big)(x)fθ(x)=(f(n)θnf(n1)θn1f(1)θ1)(x), so definieren die Ausgaben der inneren Schichten h(i)(x)=(f(i)θif(i1)θi1fθ1(1))(x)h^{(i)}(x) = \big(f^{(i)}{θ_i}\circ f^{(i-1)}{θ{i-1}} \circ \dots \circ f^{(1)}_{θ_1}\big)(x)h(i)(x)=(f(i)θif(i1)θi1fθ1(1))(x) eine Hierarchie von Merkmalsabbildungen und Kerne k(i)(x,x)=exp(γih(i)(x)h(i)(x)22)k^{(i)}(x,x')=\exp(- γ_i \|h^{(i)}(x)-h^{(i)}(x')\|_2^2)k(i)(x,x)=exp(γih(i)(x)h(i)(x)22). In Kombination mit einem Datensatz-Batch erzeugen diese Kerne KF-Verluste e2(i)e_2^{(i)}e2(i) (den L2L^2L2-Regressionsfehler, der entsteht, wenn eine zufällige Hälfte des Batches zur Vorhersage der anderen Hälfte verwendet wird), die von den Parametern der inneren Schichten θ1,,θiθ_1,\ldots,θ_iθ1,,θi (sowie von γiγ_iγi) abhängen. Die vorgeschlagene Methode besteht einfach darin, eine Teilmenge dieser KF-Verluste mit einem klassischen Ausgabeverlust zu aggregieren. Wir testen die Methode an Convolutional Neural Networks (CNNs) und Wide Residual Networks (WRNs) ohne Veränderung der Architektur oder des Ausgabeklassifiers und berichten über reduzierte Testfehler, verkleinerte Generalisierungslücken und erhöhte Robustheit gegenüber Verteilungsverschiebungen, ohne signifikanten Anstieg der Rechenkomplexität. Wir vermuten, dass diese Ergebnisse darauf zurückzuführen sind, dass der herkömmliche Trainingsprozess lediglich eine lineare Funktion (einen verallgemeinerten Moment) der durch den Datensatz definierten empirischen Verteilung nutzt und unter Überparametrisierung anfällig für das Einfrieren im Neural Tangent Kernel-Regime ist, während die vorgeschlagene Verlustfunktion – als nichtlineare Funktion der empirischen Verteilung definiert – effektiv den zugrundeliegenden Kernel, der durch das CNN definiert ist, jenseits der Datenregression mit diesem Kernel trainiert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Tiefes Regularisieren und direktes Trainieren der inneren Schichten von neuronalen Netzen mit Kernel Flows | Paper | HyperAI