HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation Stochastique de Politique Basée sur les Particules

Tie-Yan Liu Tao Qin Fangyun Wei Chang Liu Yuxuan Song Qiwei Ye

Résumé

Les politiques stochastiques ont été largement appliquées en raison de leurs bonnes propriétés en matière d’exploration et de quantification de l’incertitude. La modélisation de la distribution de politique par une distribution conjointe état-action appartenant à la famille exponentielle a permis une flexibilité accrue dans l’exploration, favorisé l’apprentissage de politiques multi-modales, et intégré une perspective probabiliste au sein du renforcement profond (RL). Le lien entre l’inférence probabiliste et le RL permet de tirer parti des progrès réalisés dans les outils d’optimisation probabiliste. Toutefois, les récents efforts se sont principalement concentrés sur la minimisation de la divergence de KL rétrograde, qui est orientée vers la confiance et peut atténuer les avantages d’une politique stochastique. Afin d’exploiter pleinement le potentiel des politiques stochastiques et de fournir une plus grande flexibilité, il existe une forte motivation à envisager différentes règles de mise à jour lors de l’optimisation des politiques. Dans cet article, nous proposons un cadre d’optimisation de politique probabiliste basé sur des particules, appelé ParPI, qui permet d’utiliser une large famille de divergences ou de distances, telles que les f-divergences et la distance de Wasserstein, capables de mieux capturer le comportement probabiliste de la politique stochastique apprise. Des expériences menées dans des environnements en ligne et hors ligne démontrent l’efficacité de l’algorithme proposé ainsi que les caractéristiques distinctes des différentes mesures de dissemblance pour l’optimisation des politiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Optimisation Stochastique de Politique Basée sur les Particules | Articles | HyperAI