MAMo : Exploiter la mémoire et l'attention pour l'estimation de profondeur vidéo monoscopique

Nous proposons MAMo, un nouveau cadre de mémoire et d’attention pour l’estimation de profondeur à partir de vidéos monoculaires. MAMo permet d’enrichir et d’améliorer tout réseau d’estimation de profondeur à partir d’une seule image afin de le transformer en modèle d’estimation de profondeur vidéo, lui permettant ainsi d’exploiter les informations temporelles pour prédire des profondeurs plus précises. Dans MAMo, le modèle est enrichi par une mémoire qui soutient la prédiction de profondeur tout au long du flux vidéo. Plus précisément, cette mémoire stocke des jetons visuels et de déplacement appris à partir des instants précédents. Cela permet au réseau de profondeur de croiser des caractéristiques pertinentes issues du passé lors de la prédiction de la profondeur sur le cadre courant. Nous introduisons un nouveau schéma pour mettre à jour continuellement la mémoire, en l’optimisant afin de conserver uniquement les jetons correspondant à la fois aux informations visuelles passées et présentes. Nous adoptons une approche basée sur l’attention pour traiter les caractéristiques de la mémoire, en apprenant d’abord les relations spatio-temporelles entre les jetons mémoire visuels et de déplacement résultants à l’aide d’un module d’attention auto-attention. Ensuite, les caractéristiques de sortie de l’attention auto-attention sont agrégées aux caractéristiques visuelles courantes via une attention croisée. Les caractéristiques ainsi attenantes sont finalement transmises à un décodeur pour prédire la profondeur sur le cadre courant. À travers des expériences étendues sur plusieurs benchmarks, notamment KITTI, NYU-Depth V2 et DDAD, nous démontrons que MAMo améliore de manière cohérente les réseaux d’estimation de profondeur monoculaire et établit un nouveau record d’état de l’art (SOTA). Notamment, notre modèle MAMo pour l’estimation de profondeur vidéo atteint une précision supérieure avec une latence plus faible par rapport aux modèles vidéo SOTA basés sur le volume de coût.