Command Palette

Search for a command to run...

马尔可夫决策过程 Markov Decision Process

日期

2 年前

马尔可夫决策过程(英语:Markov Decision Process,简称 MDP)用于描述具有随机性和决策元素的动态系统。 它为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具。 MDP 对于研究通过动态规划解决的优化问题很有用。 它至少早在 1950 年代就已为人所知,它被用于许多领域,包括机器人学,自动化,经济学和制造业。 

马尔可夫决策过程是马尔可夫链的延伸,不同之处在于增加了行动(允许选择)和奖励(给予动机)。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供