HyperAI超神经

马尔可夫决策过程 Markov Decision Process

马尔可夫决策过程（英语：Markov Decision Process，简称 MDP）用于描述具有随机性和决策元素的动态系统。 它为决策者在随机环境下做出决策提供了数学架构模型，为动态规划与强化学习的最优化问题提供了有效的数学工具。 MDP 对于研究通过动态规划解决的优化问题很有用。它至少早在 1950 年代就已为人所知，它被用于许多领域，包括机器人学，自动化，经济学和制造业。

马尔可夫决策过程是马尔可夫链的延伸，不同之处在于增加了行动（允许选择）和奖励（给予动机）。