La distillation de réseau auto-supervisé : une approche efficace pour l'exploration dans des environnements à récompense éparses

L’apprentissage par renforcement permet de résoudre des problèmes de prise de décision et de former un agent à agir dans un environnement selon une fonction de récompense prédéfinie. Toutefois, cette approche devient très problématique lorsque la récompense est trop éparses, car l’agent ne rencontre alors pas la récompense durant l’exploration de l’environnement. Une solution à ce problème pourrait consister à doter l’agent d’une motivation intrinsèque, qui favoriserait une exploration informée, augmentant ainsi les chances d’encourir également une récompense externe. La détection de nouveauté constitue l’une des voies prometteuses de la recherche sur la motivation intrinsèque. Nous présentons Self-supervised Network Distillation (SND), une catégorie d’algorithmes de motivation intrinsèque fondés sur l’erreur de distillation comme indicateur de nouveauté, où à la fois le modèle prédicteur et le modèle cible sont entraînés. Nous avons adapté trois méthodes auto-supervisées existantes à cet effet et les avons expérimentées sur un ensemble de dix environnements jugés difficiles à explorer. Les résultats montrent que notre approche permet une croissance plus rapide et un gain de récompense externe plus élevé, pour un temps d’entraînement identique, par rapport aux modèles de référence. Cela indique une amélioration significative de l’exploration dans des environnements à récompenses très éparses. En outre, les méthodes d’analyse que nous avons appliquées ont fourni des éclairages explicatifs précieux sur les modèles proposés.