HyperAIHyperAI

Command Palette

Search for a command to run...

La distillation de réseau auto-supervisé : une approche efficace pour l'exploration dans des environnements à récompense éparses

Matej Pecháč Michal Chovanec Igor Farkaš

Résumé

L’apprentissage par renforcement permet de résoudre des problèmes de prise de décision et de former un agent à agir dans un environnement selon une fonction de récompense prédéfinie. Toutefois, cette approche devient très problématique lorsque la récompense est trop éparses, car l’agent ne rencontre alors pas la récompense durant l’exploration de l’environnement. Une solution à ce problème pourrait consister à doter l’agent d’une motivation intrinsèque, qui favoriserait une exploration informée, augmentant ainsi les chances d’encourir également une récompense externe. La détection de nouveauté constitue l’une des voies prometteuses de la recherche sur la motivation intrinsèque. Nous présentons Self-supervised Network Distillation (SND), une catégorie d’algorithmes de motivation intrinsèque fondés sur l’erreur de distillation comme indicateur de nouveauté, où à la fois le modèle prédicteur et le modèle cible sont entraînés. Nous avons adapté trois méthodes auto-supervisées existantes à cet effet et les avons expérimentées sur un ensemble de dix environnements jugés difficiles à explorer. Les résultats montrent que notre approche permet une croissance plus rapide et un gain de récompense externe plus élevé, pour un temps d’entraînement identique, par rapport aux modèles de référence. Cela indique une amélioration significative de l’exploration dans des environnements à récompenses très éparses. En outre, les méthodes d’analyse que nous avons appliquées ont fourni des éclairages explicatifs précieux sur les modèles proposés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
La distillation de réseau auto-supervisé : une approche efficace pour l'exploration dans des environnements à récompense éparses | Articles | HyperAI