HyperAIHyperAI

Command Palette

Search for a command to run...

IQ-Learn : Apprentissage inverse de Q-mou pour l’imitation

Divyansh Garg Shuvam Chakraborty Chris Cundy Jiaming Song Matthieu Geist Stefano Ermon

Résumé

Dans de nombreux problèmes de prise de décision séquentielle (par exemple, le contrôle robotique, les jeux, la prédiction séquentielle), des données humaines ou expertes sont disponibles, contenant des informations utiles sur la tâche. Toutefois, l’apprentissage par imitation (IL) à partir d’un petit ensemble de données expertes peut s’avérer difficile dans des environnements à haute dimension et à dynamiques complexes. La méthode de « behavioral cloning » est simple à mettre en œuvre et présente une convergence stable, mais elle ne tire aucun parti des informations relatives à la dynamique de l’environnement. De nombreuses méthodes existantes exploitant ces informations dynamiques sont difficiles à entraîner en pratique en raison d’un processus d’optimisation adversaire entre le modèle de récompense et celui de la politique, ou encore de gradients biaisés et à forte variance. Nous proposons une méthode d’apprentissage par imitation consciente de la dynamique, qui évite l’entraînement adversaire en apprenant une unique fonction Q, représentant implicitement à la fois la récompense et la politique. Sur des benchmarks standards, les récompenses apprises implicitement montrent une forte corrélation positive avec les récompenses réelles, démontrant que notre méthode peut également être utilisée pour l’apprentissage par renforcement inverse (IRL). Notre approche, appelée Inverse soft-Q learning (IQ-Learn), atteint des résultats de pointe dans les scénarios d’apprentissage par imitation en mode hors-ligne et en ligne, surpassant significativement les méthodes existantes, tant en nombre d’interactions requises avec l’environnement qu’en capacité d’échelle dans des espaces à haute dimension, souvent de plus de trois fois.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp