HyperAIHyperAI
il y a 2 mois

Confrontation des Bandits Bayésiens Profonds : Une Comparaison Empirique des Réseaux Neuronaux Bayésiens pour l'Échantillonnage de Thompson

Carlos Riquelme; George Tucker; Jasper Snoek
Confrontation des Bandits Bayésiens Profonds : Une Comparaison Empirique des Réseaux Neuronaux Bayésiens pour l'Échantillonnage de Thompson
Résumé

Les récentes avancées dans l'apprentissage par renforcement profond ont permis des progrès significatifs dans les performances sur des applications telles que le jeu de Go et les jeux Atari. Cependant, le développement de méthodes pratiques pour équilibrer l'exploration et l'exploitation dans des domaines complexes reste largement un défi non résolu. L'échantillonnage de Thompson et son extension à l'apprentissage par renforcement offrent une approche élégante de l'exploration qui ne nécessite qu'un accès aux échantillons postérieurs du modèle. Parallèlement, les progrès réalisés dans les méthodes bayésiennes approximatives ont rendu la approximation postérieure pour des modèles de réseaux neuronaux flexibles pratique. Ainsi, il est séduisant d'envisager des réseaux neuronaux bayésiens approximatifs dans un cadre d'échantillonnage de Thompson. Pour comprendre l'impact de l'utilisation d'une distribution postérieure approximative sur l'échantillonnage de Thompson, nous avons évalué des méthodes bien établies et récemment développées pour l'échantillonnage postérieur approximatif combiné à l'échantillonnage de Thompson au travers d'une série de problèmes de bandits contextuels. Nous avons constaté que de nombreuses approches qui ont été couronnées de succès dans le cadre d'apprentissage supervisé sous-performent dans le scénario de prise de décision séquentielle. En particulier, nous soulignons le défi d'adapter des estimations d'incertitude qui convergent lentement au contexte en ligne (online setting).

Confrontation des Bandits Bayésiens Profonds : Une Comparaison Empirique des Réseaux Neuronaux Bayésiens pour l'Échantillonnage de Thompson | Articles de recherche récents | HyperAI