HyperAIHyperAI

Command Palette

Search for a command to run...

Sur La Politique

Date

il y a 2 ans

Même stratégieCela signifie que la stratégie de génération d'échantillons est la même que la stratégie de mise à jour des paramètres réseau. Il effectue directement la sélection d'action suivante en fonction de la stratégie actuelle, puis utilise cet échantillon pour mettre à jour la stratégie. La stratégie de génération d’échantillons est la même que la stratégie lors de l’apprentissage.

algorithme SARSA

SARSA (State-Action-Reward-State-Action) est un algorithme d'apprentissage des stratégies de processus de décision de Markov, qui est souvent utilisé dans l'apprentissage par renforcement dans le domaine de l'apprentissage automatique.

Points clés de l'algorithme SARSA

  • Lorsque vous êtes dans un état, vous savez lequel prendre et entreprendre cette action ;
  • La sélection de l'action a suit la stratégie e-greedy, et le calcul de la valeur cible Q est basé sur l'action a' obtenue par la stratégie e-greedy, il s'agit donc d'un apprentissage sur politique.

Avantages et inconvénients de la même stratégie

  • Avantages : Chaque étape peut être mise à jour, ce qui est évident, et la vitesse d'apprentissage est rapide ; il peut faire face à des scénarios sans résultats et dispose d'un large éventail d'applications.
  • Inconvénients : Rencontre avec la contradiction entre exploration et utilisation ; utiliser uniquement le choix optimal connu peut ne pas conduire à l’apprentissage de la solution optimale ; convergeant vers l'optimum local, ajoutant de l'exploration et réduisant l'efficacité de l'apprentissage.

Même stratégie et stratégies différentes

La différence entre la même stratégie et des stratégies différentes réside dans la question de savoir s'il faut utiliser la stratégie établie ou une nouvelle stratégie lors de la mise à jour de la valeur Q.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Sur La Politique | Wiki | HyperAI