Politique De Désactivation
Différentes stratégiesCela signifie que la stratégie de génération de nouveaux échantillons est différente de la stratégie utilisée lorsque le réseau met à jour les paramètres. Un exemple typique est l’algorithme d’apprentissage Q.
Une réflexion stratégique différente
Différentes stratégies font référence au fait que la stratégie apprise est différente de la stratégie échantillonnée. Il génère d'abord une grande quantité de données de comportement sous une certaine distribution de probabilité, puis trouve la stratégie cible à partir de ces données qui s'écartent de la stratégie optimale.
L'adoption de ce plan nécessite que les conditions suivantes soient remplies : en supposant que π est la stratégie cible et μ est la stratégie comportementale, alors la condition d'apprentissage de μ à π est que lorsque π ( a | s ) > 0, µ ( a | s ) > 0 doit être vérifiée.
Algorithme d'apprentissage Q
L'algorithme Q-Learning apprend à choisir l'action suivante en fonction des récompenses et des pénalités perçues, où Q représente la fonction de qualité de la politique π, qui mappe chaque paire état-action (s, a) à la récompense future totale attendue après avoir observé l'état s et déterminé l'action a.
L'algorithme Q-Learning est sans modèle, ce qui signifie qu'il ne modélise pas la connaissance dynamique du MDP, mais estime directement les valeurs Q des différentes actions dans chaque état, puis sélectionne l'action avec la valeur Q la plus élevée dans chaque état et la stratégie correspondante.
Si l'ordinateur accède en continu à toutes les actions d'état, l'algorithme Q-Learning convergera vers la fonction Q optimale.
Différents avantages stratégiques
- Peut apprendre sur la base d’échantillons d’enseignement donnés par des humains ou d’échantillons guidés donnés par d’autres agents ;
- L’expérience générée à partir d’anciennes stratégies peut être utilisée ;
- Il est possible d’apprendre une politique déterministe en utilisant une politique exploratoire ;
- Vous pouvez utiliser une stratégie pour échantillonner et apprendre plusieurs stratégies en même temps.