il y a 11 jours

Raisonnement physique utilisant des modèles conscients de la dynamique

Eltayeb Ahmed, Anton Bakhtin, Laurens van der Maaten, Rohit Girdhar

Résumé

Une approche courante pour résoudre des tâches de raisonnement physique consiste à entraîner un modèle d’apprentissage de valeur sur des tâches exemplaires. Une limitation de cette méthode réside dans le fait qu’elle ne permet d’apprendre les dynamiques des objets qu’à partir des récompenses attribuées à l’état final d’un déroulement (rollout) de l’environnement. Cette étude vise à surmonter cette limitation en enrichissant la récompense avec des signaux auto-supervisés relatifs aux dynamiques des objets. Plus précisément, nous entraînons le modèle à évaluer la similarité entre deux déroulements de l’environnement, tout en prédisant conjointement le résultat de la tâche de raisonnement. Cette similarité peut être définie comme une mesure de distance entre les trajectoires des objets dans les deux déroulements, ou apprise directement à partir des pixels à l’aide d’une formulation contrastive. Expérimentalement, nous constatons que cette approche conduit à des améliorations substantielles des performances sur le benchmark PHYRE pour le raisonnement physique (Bakhtin et al., 2019), établissant ainsi un nouveau record d’état de l’art.