Coacher un Étudiant Receptif

Nous proposons un nouveau cadre de distillation de connaissances pour enseigner efficacement à un agent étudiant sensorimoteur comment conduire sous la supervision d'un agent enseignant privilégié. Les méthodes actuelles de distillation pour les agents sensorimoteurs tendent à aboutir à des comportements de conduite appris suboptimaux par l'agent étudiant, ce que nous hypothésons être dû aux différences inhérentes entre les entrées, les capacités de modélisation et les processus d'optimisation des deux agents. Nous développons un nouveau schéma de distillation capable de surmonter ces limitations et de réduire l'écart entre l'agent sensorimoteur et son enseignant privilégié. Notre intuition clé est de concevoir un agent étudiant qui apprend à aligner ses caractéristiques d'entrée avec l'espace privilégié Vue du Haut (BEV) de l'enseignant. L'agent étudiant peut alors bénéficier d'une supervision directe par l'enseignant sur l'apprentissage des représentations internes. Pour faciliter la tâche difficile d'apprentissage sensorimoteur, le modèle étudiant est optimisé par un mécanisme d'encadrement adapté au rythme de l'étudiant, associé à diverses formes de supervision auxiliaire. Nous proposons également un agent privilégié imitant à haute capacité qui dépasse les agents privilégiés précédents dans CARLA et garantit que l'agent étudiant apprenne un comportement de conduite sûr. Notre agent sensorimoteur proposé aboutit à un agent robuste basé sur les images pour le clonage de comportement dans CARLA, améliorant les modèles actuels de plus de 20,6 % en termes de score de conduite sans nécessiter LiDAR, des observations historiques, une combinaison de modèles, une agrégation de données on-policy ou un apprentissage par renforcement.