HyperAI

Problème De Gradient Évanescent

Problème de gradient évanescentCela se produit principalement dans les réseaux neuronaux artificiels formés à l’aide de la descente de gradient et de la rétropropagation. Dans les itérations de ces méthodes de formation, la valeur mise à jour des poids du réseau neuronal est proportionnelle au gradient de la fonction d'erreur, mais la valeur du gradient disparaît presque dans certains cas, de sorte que les poids ne peuvent pas être mis à jour efficacement et le réseau neuronal ne peut pas continuer à être formé.

Dans les fonctions d'activation traditionnelles, telles que la fonction tangente hyperbolique, la valeur du gradient est comprise entre (0, 1), mais la rétropropagation calcule le gradient via la règle de la chaîne. Lorsque cette méthode calcule le gradient de la couche précédente, cela équivaut à multiplier N nombres plus petits, ce qui fait que le gradient diminue de manière exponentielle avec N, ce qui conduit à un entraînement plus lent des couches précédentes.