Search for a command to run...
Régression pondérée par avantage : apprentissage par renforcement hors politique simple et évolutif