Raisonnement relationnel temporel dans les vidéos

La capacité de raisonnement relationnel temporel, qui consiste à établir des liens entre les transformations significatives d'objets ou d'entités au fil du temps, est une propriété fondamentale des espèces intelligentes. Dans cet article, nous présentons un module de réseau efficace et interprétable, le Réseau de Relations Temporelles (TRN), conçu pour apprendre et raisonner sur les dépendances temporelles entre les images d'une vidéo à différentes échelles de temps. Nous évaluons les réseaux équipés de TRN sur des tâches de reconnaissance d'activités en utilisant trois jeux de données vidéo récents : Something-Something, Jester et Charades, qui dépendent fondamentalement du raisonnement relationnel temporel. Nos résultats montrent que le TRN proposé confère aux réseaux de neurones convolutifs une capacité remarquable à découvrir les relations temporelles dans les vidéos. Grâce à l'échantillonnage épars d'images vidéo, les réseaux équipés de TRN peuvent prédire avec précision les interactions humain-objet dans le jeu de données Something-Something et identifier divers gestes humains dans le jeu de données Jester avec des performances très compétitives. Les réseaux équipés de TRN surpassent également les réseaux à deux flux et les réseaux à convolution 3D dans la reconnaissance des activités quotidiennes du jeu de données Charades. Des analyses supplémentaires montrent que ces modèles apprennent des connaissances visuelles intuitives et interprétables relatives au sens commun dans les vidéos.