HyperAI

Sur La Politique

Même stratégieCela signifie que la stratégie de génération d'échantillons est la même que la stratégie de mise à jour des paramètres réseau. Il effectue directement la sélection d'action suivante en fonction de la stratégie actuelle, puis utilise cet échantillon pour mettre à jour la stratégie. La stratégie de génération d’échantillons est la même que la stratégie lors de l’apprentissage.

algorithme SARSA

SARSA (State-Action-Reward-State-Action) est un algorithme d'apprentissage des stratégies de processus de décision de Markov, qui est souvent utilisé dans l'apprentissage par renforcement dans le domaine de l'apprentissage automatique.

Points clés de l'algorithme SARSA

  • Lorsque vous êtes dans un état, vous savez lequel prendre et entreprendre cette action ;
  • La sélection de l'action a suit la stratégie e-greedy, et le calcul de la valeur cible Q est basé sur l'action a' obtenue par la stratégie e-greedy, il s'agit donc d'un apprentissage sur politique.

Avantages et inconvénients de la même stratégie

  • Avantages : Chaque étape peut être mise à jour, ce qui est évident, et la vitesse d'apprentissage est rapide ; il peut faire face à des scénarios sans résultats et dispose d'un large éventail d'applications.
  • Inconvénients : Rencontre avec la contradiction entre exploration et utilisation ; utiliser uniquement le choix optimal connu peut ne pas conduire à l’apprentissage de la solution optimale ; convergeant vers l'optimum local, ajoutant de l'exploration et réduisant l'efficacité de l'apprentissage.

Même stratégie et stratégies différentes

La différence entre la même stratégie et des stratégies différentes réside dans la question de savoir s'il faut utiliser la stratégie établie ou une nouvelle stratégie lors de la mise à jour de la valeur Q.