Q-Learning
Q-Learning est un algorithme d'apprentissage par renforcement sans modèle et hors politique qui trouve le meilleur plan d'action compte tenu de l'état actuel d'un agent.En fonction de l’endroit où se trouve l’agent dans l’environnement, il décidera de l’action à entreprendre ensuite. « Q » fait référence à la fonction calculée par l’algorithme : la récompense attendue pour une action entreprise dans un état donné.
L’objectif du Q-learning est de trouver la meilleure ligne de conduite compte tenu de l’état actuel. Pour ce faire, elle peut créer ses propres règles ou opérer en dehors des politiques prescrites.Cela signifie qu'aucune politique n'est réellement nécessaire, d'où le nom « hors politique ».Pour tout processus de décision de Markov fini, Q-learning trouve une politique optimale qui maximise la valeur attendue de la récompense totale à toutes les étapes consécutives, à partir de l'état actuel. L'apprentissage Q peut identifier la meilleure politique de sélection d'actions pour tout processus de décision de Markov fini donné, étant donné un temps d'exploration infini et une politique partiellement randomisée.
Un exemple de Q-learning est un système de recommandation publicitaire. Dans un système de recommandation publicitaire normal, les publicités qu'un spectateur reçoit sont basées sur ses achats précédents ou sur les sites Web qu'il a pu visiter. Si le téléspectateur achète un téléviseur, il recevra des recommandations de différentes marques de téléviseurs.
Termes importants dans Q-Learning
- États : Les États S (States) représentent la position actuelle de l'agent dans l'environnement.
- Action : Une action est une étape effectuée par un agent lorsqu'il se trouve dans un état spécifique.
- Récompense : Pour chaque action, l'agent reçoit une récompense positive ou négative.
- Intrigue : Lorsque l'agent se retrouve dans un état terminal et ne peut plus entreprendre de nouvelles actions.
- Valeur Q : Elle est utilisée pour déterminer la qualité d'une action A lorsqu'elle est exécutée dans un état spécifique S. Exprimée sous la forme Q (A, S).
- Différence temporelle : une formule permettant de trouver la valeur Q en utilisant l'état et l'action actuels et les valeurs de l'état et de l'action précédents.