IQ-Learn : Apprentissage inverse de Q-mou pour l’imitation

Dans de nombreux problèmes de prise de décision séquentielle (par exemple, le contrôle robotique, les jeux, la prédiction séquentielle), des données humaines ou expertes sont disponibles, contenant des informations utiles sur la tâche. Toutefois, l’apprentissage par imitation (IL) à partir d’un petit ensemble de données expertes peut s’avérer difficile dans des environnements à haute dimension et à dynamiques complexes. La méthode de « behavioral cloning » est simple à mettre en œuvre et présente une convergence stable, mais elle ne tire aucun parti des informations relatives à la dynamique de l’environnement. De nombreuses méthodes existantes exploitant ces informations dynamiques sont difficiles à entraîner en pratique en raison d’un processus d’optimisation adversaire entre le modèle de récompense et celui de la politique, ou encore de gradients biaisés et à forte variance. Nous proposons une méthode d’apprentissage par imitation consciente de la dynamique, qui évite l’entraînement adversaire en apprenant une unique fonction Q, représentant implicitement à la fois la récompense et la politique. Sur des benchmarks standards, les récompenses apprises implicitement montrent une forte corrélation positive avec les récompenses réelles, démontrant que notre méthode peut également être utilisée pour l’apprentissage par renforcement inverse (IRL). Notre approche, appelée Inverse soft-Q learning (IQ-Learn), atteint des résultats de pointe dans les scénarios d’apprentissage par imitation en mode hors-ligne et en ligne, surpassant significativement les méthodes existantes, tant en nombre d’interactions requises avec l’environnement qu’en capacité d’échelle dans des espaces à haute dimension, souvent de plus de trois fois.