HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle de dynamique à étapes multiples améliore les prédictions futures pour l'apprentissage par renforcement en ligne et hors ligne

Haoxin Lin Yu-Yan Xu Yihao Sun Zhilong Zhang Yi-Chen Li Chengxing Jia Junyin Ye Jiaji Zhang Yang Yu

Résumé

Les méthodes fondées sur un modèle en apprentissage par renforcement offrent une approche prometteuse pour améliorer l'efficacité des données en facilitant l'exploration de politiques au sein d'un modèle de dynamique. Toutefois, la prédiction précise de plusieurs étapes successives dans le modèle de dynamique reste un défi en raison de la prédiction par « bootstrap », qui attribue l’état suivant à la prédiction de l’état courant. Ce phénomène entraîne une accumulation d’erreurs lors du déroulement du modèle. Dans cet article, nous proposons le modèle de dynamique à plusieurs étapes (Any-step Dynamics Model, ADM), conçu pour atténuer l’accumulation d’erreurs en réduisant la prédiction par bootstrap au profit d’une prédiction directe. L’ADM permet d’utiliser des plans de longueur variable comme entrée pour prédire des états futurs, sans recourir fréquemment à la prédiction par bootstrap. Nous avons conçu deux algorithmes, ADMPO-ON et ADMPO-OFF, qui appliquent l’ADM respectivement dans des cadres d’apprentissage en ligne et hors ligne. Dans le cadre en ligne, ADMPO-ON montre une efficacité supérieure en termes d’utilisation des échantillons par rapport aux méthodes de pointe précédentes. Dans le cadre hors ligne, ADMPO-OFF non seulement surpasse les approches récentes de pointe en matière de performance, mais offre également une meilleure quantification de l’incertitude du modèle en n’utilisant qu’un seul modèle ADM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèle de dynamique à étapes multiples améliore les prédictions futures pour l'apprentissage par renforcement en ligne et hors ligne | Articles | HyperAI