عملية اتخاذ القرار ماركوف
يتم استخدام عملية اتخاذ القرار ماركوف (MDP) لوصف الأنظمة الديناميكية ذات العناصر العشوائية وعناصر القرار. إنه يوفر نموذج إطار رياضي لصناع القرار لاتخاذ القرارات في بيئة عشوائية، ويوفر أدوات رياضية فعالة لمشاكل التحسين في البرمجة الديناميكية والتعلم التعزيزي. تعتبر MDPs مفيدة لدراسة مشاكل التحسين التي يتم حلها عن طريق البرمجة الديناميكية. لقد كان معروفًا منذ خمسينيات القرن العشرين على الأقل، ويُستخدم في العديد من المجالات، بما في ذلك الروبوتات، والأتمتة، والاقتصاد، والتصنيع.
تعتبر عمليات اتخاذ القرار في ماركوف امتدادًا لسلاسل ماركوف، مع إضافة الإجراءات (التي تسمح بالاختيارات) والمكافآت (التي تعطي الدافع).