Command Palette
Search for a command to run...
Échantillonnage de Thompson
Thompson Sampling est un algorithme heuristique nommé d'après William R. Thompson, conçu pour résoudre le dilemme exploration-exploitation dans le problème du bandit multi-bras. Cette méthode sélectionne des actions qui maximisent les récompenses attendues en échantillonnant aléatoirement à partir de croyances, équilibrant efficacement l'exploration d'environnements inconnus avec l'exploitation des informations connues, ce qui en fait une approche très précieuse dans les applications pratiques.