il y a 17 jours

Une régularisation profonde et une entraînement direct des couches internes des réseaux de neurones par Flots de noyaux

Gene Ryan Yoo, Houman Owhadi

Résumé

Nous introduisons une nouvelle méthode de régularisation pour les réseaux de neurones artificiels (ANNs) fondée sur les Kernel Flows (KFs). Les KFs ont été initialement proposés comme une méthode de sélection de noyaux en régression ou krigeage, basée sur la minimisation de la perte de précision induite par la réduction de moitié du nombre de points d’interpolation dans des échantillons aléatoires du jeu de données. En notant $f_θ(x) = \big(f^{(n)}{θ_n}\circ f^{(n-1)}{θ_{n-1}} \circ \dots \circ f^{(1)}{θ_1}\big)(x)$ la représentation fonctionnelle de la structure compositionnelle du réseau neuronal, les sorties des couches internes $h^{(i)}(x) = \big(f^{(i)}{θ_i}\circ f^{(i-1)}{θ{i-1}} \circ \dots \circ f^{(1)}_{θ_1}\big)(x)$ définissent une hiérarchie de cartes de caractéristiques et de noyaux $k^{(i)}(x,x')=\exp(- γ_i \|h^{(i)}(x)-h^{(i)}(x')\|_2^2)$. Lorsqu’ils sont combinés à un échantillon du jeu de données, ces noyaux produisent des erreurs KF $e_2^{(i)}$ (l’erreur de régression $L^2$ résultant de l’utilisation d’une moitié aléatoire de l’échantillon pour prédire l’autre moitié), qui dépendent des paramètres des couches internes $θ_1,\ldots,θ_i$ (ainsi que de $γ_i$). La méthode proposée consiste simplement à agréger un sous-ensemble de ces erreurs KF avec une perte de sortie classique. Nous testons cette approche sur des CNNs et des WRNs sans modifier leur architecture ni le classificateur de sortie, et observons une réduction des erreurs de test, une diminution de l’écart de généralisation, ainsi qu’une augmentation de la robustesse aux décalages de distribution, sans augmentation significative de la complexité computationnelle. Nous supposons que ces résultats pourraient s’expliquer par le fait que, contrairement à l’entraînement classique qui n’exploite qu’un fonctionnel linéaire (un moment généralisé) de la distribution empirique définie par le jeu de données, et qui peut être sujet à l’engagement dans le régime du noyau tangent neuronal (sous sur-paramétrage), la fonction de perte proposée — définie comme un fonctionnel non linéaire de la distribution empirique — entraîne effectivement le noyau sous-jacent défini par le CNN au-delà de la simple régression des données par ce noyau.