HyperAI

Problème De Gradient Explosif

Problème d'explosion des gradientsCela se produit généralement dans les réseaux profonds lorsque la valeur d'initialisation du poids est trop élevée, et cela devient généralement plus évident à mesure que le nombre de couches réseau augmente.

En prenant la dérivée de la fonction d'activation, si le résultat est supérieur à 1, alors à mesure que le nombre de couches augmente, la mise à jour du gradient final augmentera de manière exponentielle, c'est-à-dire qu'une explosion du gradient se produit ; si le résultat est inférieur à 1, alors à mesure que le nombre de couches augmente, la mise à jour du gradient final diminuera de manière exponentielle, c'est-à-dire qu'une disparition du gradient se produit.

Les principales raisons de l’explosion et de la disparition du gradient sont que le réseau est trop profond et que la mise à jour du poids du réseau est instable. Essentiellement, c’est parce qu’il y a un effet de multiplication dans la rétropropagation du gradient. Pour le problème de disparition du gradient, vous pouvez envisager de remplacer la fonction d'activation Sigmoid par la fonction d'activation ReLU. De plus, la conception de la structure LSTM peut également améliorer le problème de disparition du gradient dans RNN.

Solutions aux gradients explosifs

  • Pré-formation et perfectionnement
  • Découpage du gradient, régularisation du poids
  • Utilisation de différentes fonctions d'activation
  • Utilisation de Batchnorm
  • Utilisation de la structure résiduelle
  • Utilisation du réseau LSTM

Références

【1】Gradients disparaissants et explosés dans l'entraînement des réseaux neuronaux

【2】Problème d'instabilité du gradient des réseaux neuronaux profonds : disparition et explosion du gradient

【3】Explication détaillée des causes et des solutions de la disparition et de l'explosion des gradients dans l'apprentissage automatique