HyperAIHyperAI

Command Palette

Search for a command to run...

Pourquoi le gradient stochastique est né

Pour comprendre l'évolution de l'optimisation en apprentissage automatique, il est nécessaire d'examiner d'abord les méthodes analytiques comme l'équation normale. Initialement, pour une régression linéaire simple, les paramètres optiques (pente et ordonnée à l'origine) sont calculés directement via des formules mathématiques dérivées de la minimisation de l'erreur quadratique moyenne. Bien que précises, ces formules deviennent rapidement ingérables lorsque le nombre de caractéristiques augmente, car l'inversion de matrice requise pour l'équation normale devient extrêmement coûteuse en calcul et en mémoire sur les grands ensembles de données. C'est ici que la descente de gradient intervient. Au lieu de résoudre l'équation en une seule étape, cet algorithme itératif démarre avec des valeurs de paramètres aléatoires et se déplace progressivement vers le minimum de la fonction de perte. Il calcule le gradient, qui indique la pente de la courbe de perte, et met à jour les paramètres en s'opposant à cette direction, contrôlée par un taux d'apprentissage. La méthode dite de descente de gradient par lot (batch) utilise l'intégralité du jeu de données pour effectuer chaque mise à jour. Bien que stable, cette approche ralentit considérablement le processus lorsque le nombre d'observations atteint des millions, car elle nécessite de parcourir toutes les données à chaque itération. La solution à cette limitation est la descente de gradient stochastique (SGD). Cette variante modifie la stratégie de mise à jour en ne se basant plus sur l'ensemble des données, mais sur un seul échantillon aléatoire choisi à la fois. Après avoir calculé le gradient sur cette unique observation, les paramètres sont immédiatement mis à jour. Ce processus est répété pour chaque point de données du jeu de données avant de recommencer un nouvel épisode. L'avantage majeur de la SGD réside dans sa rapidité d'exécution et sa capacité à sortir des minima locaux grâce à la nature bruitée de ses mises à jour. Le chemin vers le minimum peut être saccadé, mais il permet une convergence beaucoup plus rapide sur les très grands jeux de données que la méthode par lot. En pratique, un compromis entre ces deux approches est souvent trouvé via la descente de gradient par mini-lot, qui utilise de petits sous-ensembles de données pour chaque mise à jour. Cette méthode combine la stabilité de la méthode par lot avec la vitesse de la méthode stochastique. Alors que la régression linéaire possède une solution mathématique directe, la plupart des algorithmes d'apprentissage profond modernes n'ont pas de solution analytique fermée. La descente de gradient, et particulièrement sa version stochastique ou par mini-lot, devient donc indispensable pour entraîner ces modèles complexes. Ces algorithmes permettent d'optimiser les paramètres efficacement même lorsque les ensembles de données sont massifs, rendant possible le développement de systèmes d'intelligence artificielle avancés qui seraient autrement inaccessibles.

Liens associés