HyperAI超神经

马尔可夫决策过程 Markov Decision Process

马尔可夫决策过程(英语:Markov Decision Process,简称 MDP)用于描述具有随机性和决策元素的动态系统。 它为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具。 MDP 对于研究通过动态规划解决的优化问题很有用。 它至少早在 1950 年代就已为人所知,它被用于许多领域,包括机器人学,自动化,经济学和制造业。 

马尔可夫决策过程是马尔可夫链的延伸,不同之处在于增加了行动(允许选择)和奖励(给予动机)。