il y a 17 jours

Hopper : Transformateur à plusieurs sauts pour le raisonnement spatio-temporel

Honglu Zhou, Asim Kadav, Farley Lai, Alexandru Niculescu-Mizil, Martin Renqiang Min, Mubbasir Kapadia, Hans Peter Graf

Résumé

Cet article aborde le problème du raisonnement centré sur les objets dans le domaine spatiotemporal des vidéos. Le cœur de notre approche repose sur le concept de permanence des objets, c’est-à-dire la capacité à raisonner sur la localisation des objets tout au long de la vidéo, même lorsqu’ils sont masqués, contenus ou transportés par d’autres objets. Les approches existantes fondées sur l’apprentissage profond souffrent souvent de biais spatiotemporels lorsqu’elles sont appliquées à des problèmes de raisonnement vidéo. Nous proposons Hopper, une méthode qui utilise un Transformer à multi-sauts pour raisonner sur la permanence des objets dans les vidéos. Étant donné une vidéo et une requête de localisation, Hopper reasonne à partir des images et des trajectoires d’objets afin de sauter automatiquement, de manière itérative, sur des cadres critiques afin de prédire la position finale de l’objet d’intérêt. Nous démontrons l’efficacité de l’utilisation d’une perte contrastive pour réduire les biais spatiotemporels. Nous évaluons notre méthode sur le jeu de données CATER et montrons qu’Hopper atteint une précision Top-1 de 73,2 % en utilisant uniquement une fréquence d’image de 1 FPS, en ne parcourant que quelques cadres critiques. Nous démontrons également que Hopper est capable de raisonnement à long terme en construisant un nouveau jeu de données, CATER-h, qui exige un raisonnement en plusieurs étapes pour localiser correctement les objets d’intérêt.