Command Palette
Search for a command to run...
Problem Des Verschwindenden Gradienten
Date
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.
Search for a command to run...
Date
Problem des verschwindenden GradientenEs tritt hauptsächlich in künstlichen neuronalen Netzwerken auf, die mithilfe von Gradientenabstieg und Backpropagation trainiert werden. In den Iterationen dieser Trainingsmethoden ist der aktualisierte Wert der Gewichte des neuronalen Netzwerks proportional zum Gradienten der Fehlerfunktion, aber der Gradientenwert verschwindet in einigen Fällen fast, sodass die Gewichte nicht effektiv aktualisiert werden können und das neuronale Netzwerk nicht weiter trainiert werden kann.
Bei herkömmlichen Aktivierungsfunktionen, wie etwa der hyperbolischen Tangensfunktion, liegt der Gradientenwert im Bereich (0, 1), aber bei der Backpropagation wird der Gradient mithilfe der Kettenregel berechnet. Wenn diese Methode den Gradienten der vorherigen Schicht berechnet, entspricht dies der Multiplikation von N kleineren Zahlen, wodurch der Gradient exponentiell mit N abnimmt, was zu einem langsameren Training der vorherigen Schichten führt.
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.
Search for a command to run...
Date
Problem des verschwindenden GradientenEs tritt hauptsächlich in künstlichen neuronalen Netzwerken auf, die mithilfe von Gradientenabstieg und Backpropagation trainiert werden. In den Iterationen dieser Trainingsmethoden ist der aktualisierte Wert der Gewichte des neuronalen Netzwerks proportional zum Gradienten der Fehlerfunktion, aber der Gradientenwert verschwindet in einigen Fällen fast, sodass die Gewichte nicht effektiv aktualisiert werden können und das neuronale Netzwerk nicht weiter trainiert werden kann.
Bei herkömmlichen Aktivierungsfunktionen, wie etwa der hyperbolischen Tangensfunktion, liegt der Gradientenwert im Bereich (0, 1), aber bei der Backpropagation wird der Gradient mithilfe der Kettenregel berechnet. Wenn diese Methode den Gradienten der vorherigen Schicht berechnet, entspricht dies der Multiplikation von N kleineren Zahlen, wodurch der Gradient exponentiell mit N abnimmt, was zu einem langsameren Training der vorherigen Schichten führt.
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.