Apprentissage de la permanence des objets à partir de vidéos

La permanence des objets permet aux individus de raisonner sur la localisation des objets invisibles en comprenant qu’ils continuent d’exister même lorsqu’ils ne sont pas perçus directement. Cette capacité est essentielle à la construction d’un modèle du monde, car les objets présents dans les scènes visuelles naturelles s’occulent dynamiquement les uns les autres et peuvent être contenus les uns dans les autres. Des études approfondies en psychologie du développement suggèrent que la permanence des objets constitue une tâche complexe, acquise au fil d’expériences prolongées. Dans cet article, nous introduisons un cadre d’apprentissage de la permanence des objets à partir de données. Nous expliquons pourquoi ce problème d’apprentissage doit être décomposé en quatre composantes distinctes : (1) les objets sont visibles, (2) ils sont occlus, (3) ils sont contenus par un autre objet, et (4) ils sont transportés par un objet conteneur. La quatrième sous-tâche, où un objet cible est transporté par un objet conteneur, est particulièrement exigeante, car elle exige de raisonner sur la localisation d’un objet invisible en mouvement. Nous présentons ensuite une architecture profonde unifiée capable d’apprendre à prédire la localisation d’objets dans ces quatre scénarios. Nous évaluons cette architecture et le système sur un nouveau jeu de données basé sur CATER, et constatons qu’il surpassent les méthodes de localisation antérieures ainsi que diverses méthodes de référence.