Modèle de dynamique à étapes multiples améliore les prédictions futures pour l'apprentissage par renforcement en ligne et hors ligne

Les méthodes fondées sur un modèle en apprentissage par renforcement offrent une approche prometteuse pour améliorer l'efficacité des données en facilitant l'exploration de politiques au sein d'un modèle de dynamique. Toutefois, la prédiction précise de plusieurs étapes successives dans le modèle de dynamique reste un défi en raison de la prédiction par « bootstrap », qui attribue l’état suivant à la prédiction de l’état courant. Ce phénomène entraîne une accumulation d’erreurs lors du déroulement du modèle. Dans cet article, nous proposons le modèle de dynamique à plusieurs étapes (Any-step Dynamics Model, ADM), conçu pour atténuer l’accumulation d’erreurs en réduisant la prédiction par bootstrap au profit d’une prédiction directe. L’ADM permet d’utiliser des plans de longueur variable comme entrée pour prédire des états futurs, sans recourir fréquemment à la prédiction par bootstrap. Nous avons conçu deux algorithmes, ADMPO-ON et ADMPO-OFF, qui appliquent l’ADM respectivement dans des cadres d’apprentissage en ligne et hors ligne. Dans le cadre en ligne, ADMPO-ON montre une efficacité supérieure en termes d’utilisation des échantillons par rapport aux méthodes de pointe précédentes. Dans le cadre hors ligne, ADMPO-OFF non seulement surpasse les approches récentes de pointe en matière de performance, mais offre également une meilleure quantification de l’incertitude du modèle en n’utilisant qu’un seul modèle ADM.