HyperAIHyperAI
il y a 18 jours

Optimisation Stochastique de Politique Basée sur les Particules

{Tie-Yan Liu, Tao Qin, Fangyun Wei, Chang Liu, Yuxuan Song, Qiwei Ye}
Optimisation Stochastique de Politique Basée sur les Particules
Résumé

Les politiques stochastiques ont été largement appliquées en raison de leurs bonnes propriétés en matière d’exploration et de quantification de l’incertitude. La modélisation de la distribution de politique par une distribution conjointe état-action appartenant à la famille exponentielle a permis une flexibilité accrue dans l’exploration, favorisé l’apprentissage de politiques multi-modales, et intégré une perspective probabiliste au sein du renforcement profond (RL). Le lien entre l’inférence probabiliste et le RL permet de tirer parti des progrès réalisés dans les outils d’optimisation probabiliste. Toutefois, les récents efforts se sont principalement concentrés sur la minimisation de la divergence de KL rétrograde, qui est orientée vers la confiance et peut atténuer les avantages d’une politique stochastique. Afin d’exploiter pleinement le potentiel des politiques stochastiques et de fournir une plus grande flexibilité, il existe une forte motivation à envisager différentes règles de mise à jour lors de l’optimisation des politiques. Dans cet article, nous proposons un cadre d’optimisation de politique probabiliste basé sur des particules, appelé ParPI, qui permet d’utiliser une large famille de divergences ou de distances, telles que les f-divergences et la distance de Wasserstein, capables de mieux capturer le comportement probabiliste de la politique stochastique apprise. Des expériences menées dans des environnements en ligne et hors ligne démontrent l’efficacité de l’algorithme proposé ainsi que les caractéristiques distinctes des différentes mesures de dissemblance pour l’optimisation des politiques.