Décryptage de Q-Learning : maîtrisez la méthode clé de l’apprentissage par renforcement hors politique
Crackez Q-Learning Maîtrisez la deuxième méthode clé de l’apprentissage par différence temporelle Notre robot apprenant Q-Learning, source : généré par ChatGPT Vous n’êtes pas encore membre de Medium ? Pas de souci, vous pouvez tout de même lire cet article ici ! La dernière fois, nous avons exploré le concept d’apprentissage par différence temporelle (Temporal Difference ou TD) et découvert notre première méthode : SARSA, une approche on-policy. Aujourd’hui, plongeons dans la méthode off-policy TD : Q-Learning ! Si ce n’est pas déjà fait, n’oubliez pas de consulter l’article précédent : Apprentissage par différence temporelle : la solution la plus puissante en apprentissage par renforcement. Q-Learning : une méthode de contrôle TD off-policy La dernière fois, nous avons vu que SARSA est une méthode on-policy, ce qui signifie qu’elle apprend à partir des actions effectivement choisies par la politique d’action courante. Son règle de mise à jour est la suivante : [ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma Q(s', a') - Q(s, a) \right] ] On peut interpréter cette mise à jour comme une moyenne exponentielle mobile (EMA) plutôt qu’une moyenne empirique. Cela devient clair dans la formule : elle ajuste progressivement la valeur estimée en fonction de l’erreur de temporal difference, en donnant plus d’importance aux nouvelles observations. En résumé, SARSA est une combinaison entre la formule de l’EMA et l’équation de Bellman. Mais Q-Learning, elle, fonctionne différemment. Elle est off-policy, ce qui signifie qu’elle peut apprendre la valeur optimale d’une politique, même si les actions choisies pendant l’apprentissage proviennent d’une autre politique (par exemple, une politique exploratoire comme ε-greedy). Sa règle de mise à jour est : [ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right] ] La grande différence ? Au lieu d’utiliser la valeur de l’action suivante ( Q(s', a') ) selon la politique courante (comme dans SARSA), Q-Learning utilise le maximum sur toutes les actions possibles à l’état suivant : ( \max_{a'} Q(s', a') ). Cela signifie que Q-Learning apprend directement la politique optimale, indépendamment de la manière dont l’agent explore l’environnement. C’est ce qui fait sa puissance : même si l’agent explore de manière aléatoire, il peut quand même converger vers la meilleure stratégie possible. Pourquoi Q-Learning est si puissant ? Grâce à son caractère off-policy, Q-Learning est particulièrement efficace dans des situations où l’exploration est nécessaire mais où l’on veut apprendre la meilleure politique. C’est un outil essentiel dans de nombreux domaines : robotique, jeux, contrôle automatique, etc. Par exemple, dans un labyrinthe, l’agent peut essayer des chemins aléatoires (grâce à ε-greedy) pour découvrir l’environnement, mais Q-Learning lui permet de mémoriser et d’exploiter progressivement la trajectoire optimale, même si celle-ci n’a pas été suivie lors de l’exploration. En résumé SARSA : méthode on-policy, apprend la valeur de la politique courante. Q-Learning : méthode off-policy, apprend la valeur de la politique optimale, indépendamment des actions choisies. Q-Learning est donc une avancée majeure dans l’apprentissage par renforcement, car elle sépare clairement l’exploration de l’exploitation, tout en garantissant la convergence vers la meilleure stratégie possible. Dans le prochain article, nous verrons comment Q-Learning peut être améliorée encore davantage grâce aux réseaux de neurones — l’entrée en scène de l’apprentissage profond !
