HyperAI

Processus De Décision De Markov

Le processus de décision de Markov (MDP) est utilisé pour décrire des systèmes dynamiques comportant des éléments aléatoires et de décision. Il fournit un modèle de cadre mathématique permettant aux décideurs de prendre des décisions dans un environnement aléatoire et fournit des outils mathématiques efficaces pour les problèmes d'optimisation dans la programmation dynamique et l'apprentissage par renforcement. Les MDP sont utiles pour étudier les problèmes d’optimisation résolus par programmation dynamique. Il est connu depuis au moins les années 1950 et est utilisé dans de nombreux domaines, notamment la robotique, l’automatisation, l’économie et la fabrication. 

Les processus de décision de Markov sont une extension des chaînes de Markov, avec l'ajout d'actions (permettant des choix) et de récompenses (donnant de la motivation).