HyperAIHyperAI

Command Palette

Search for a command to run...

Une régularisation profonde et une entraînement direct des couches internes des réseaux de neurones par Flots de noyaux

Gene Ryan Yoo Houman Owhadi

Résumé

Nous introduisons une nouvelle méthode de régularisation pour les réseaux de neurones artificiels (ANNs) fondée sur les Kernel Flows (KFs). Les KFs ont été initialement proposés comme une méthode de sélection de noyaux en régression ou krigeage, basée sur la minimisation de la perte de précision induite par la réduction de moitié du nombre de points d’interpolation dans des échantillons aléatoires du jeu de données. En notant fθ(x)=(f(n)θnf(n1)θn1f(1)θ1)(x)f_θ(x) = \big(f^{(n)}{θ_n}\circ f^{(n-1)}{θ_{n-1}} \circ \dots \circ f^{(1)}{θ_1}\big)(x)fθ(x)=(f(n)θnf(n1)θn1f(1)θ1)(x) la représentation fonctionnelle de la structure compositionnelle du réseau neuronal, les sorties des couches internes h(i)(x)=(f(i)θif(i1)θi1fθ1(1))(x)h^{(i)}(x) = \big(f^{(i)}{θ_i}\circ f^{(i-1)}{θ{i-1}} \circ \dots \circ f^{(1)}_{θ_1}\big)(x)h(i)(x)=(f(i)θif(i1)θi1fθ1(1))(x) définissent une hiérarchie de cartes de caractéristiques et de noyaux k(i)(x,x)=exp(γih(i)(x)h(i)(x)22)k^{(i)}(x,x')=\exp(- γ_i \|h^{(i)}(x)-h^{(i)}(x')\|_2^2)k(i)(x,x)=exp(γih(i)(x)h(i)(x)22). Lorsqu’ils sont combinés à un échantillon du jeu de données, ces noyaux produisent des erreurs KF e2(i)e_2^{(i)}e2(i) (l’erreur de régression L2L^2L2 résultant de l’utilisation d’une moitié aléatoire de l’échantillon pour prédire l’autre moitié), qui dépendent des paramètres des couches internes θ1,,θiθ_1,\ldots,θ_iθ1,,θi (ainsi que de γiγ_iγi). La méthode proposée consiste simplement à agréger un sous-ensemble de ces erreurs KF avec une perte de sortie classique. Nous testons cette approche sur des CNNs et des WRNs sans modifier leur architecture ni le classificateur de sortie, et observons une réduction des erreurs de test, une diminution de l’écart de généralisation, ainsi qu’une augmentation de la robustesse aux décalages de distribution, sans augmentation significative de la complexité computationnelle. Nous supposons que ces résultats pourraient s’expliquer par le fait que, contrairement à l’entraînement classique qui n’exploite qu’un fonctionnel linéaire (un moment généralisé) de la distribution empirique définie par le jeu de données, et qui peut être sujet à l’engagement dans le régime du noyau tangent neuronal (sous sur-paramétrage), la fonction de perte proposée — définie comme un fonctionnel non linéaire de la distribution empirique — entraîne effectivement le noyau sous-jacent défini par le CNN au-delà de la simple régression des données par ce noyau.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp