Markov-Entscheidungsprozess
Der Markow-Entscheidungsprozess (MDP) wird zur Beschreibung dynamischer Systeme mit Zufalls- und Entscheidungselementen verwendet. Es bietet Entscheidungsträgern ein mathematisches Rahmenmodell für die Entscheidungsfindung in einer zufälligen Umgebung und stellt effektive mathematische Werkzeuge für Optimierungsprobleme in der dynamischen Programmierung und beim bestärkenden Lernen bereit. MDPs sind nützlich zum Studium von Optimierungsproblemen, die durch dynamische Programmierung gelöst werden. Es ist mindestens seit den 1950er Jahren bekannt und wird in vielen Bereichen eingesetzt, darunter Robotik, Automatisierung, Wirtschaft und Fertigung.
Markow-Entscheidungsprozesse sind eine Erweiterung der Markow-Ketten, ergänzt um Aktionen (Auswahlmöglichkeiten bieten) und Belohnungen (Motivation geben).