XMem : Segmentation à long terme d'objets vidéo avec un modèle de mémoire d'Atkinson-Shiffrin

Nous présentons XMem, une architecture de segmentation d'objets vidéo pour des vidéos longues, dotée de magasins de mémoire de caractéristiques unifiés inspirés du modèle de mémoire d'Atkinson-Shiffrin. Les travaux précédents sur la segmentation d'objets vidéo utilisent généralement un seul type de mémoire de caractéristiques. Pour les vidéos d'une durée supérieure à une minute, un modèle unique de mémoire de caractéristiques lie étroitement la consommation de mémoire et la précision. En revanche, en s'inspirant du modèle d'Atkinson-Shiffrin, nous avons développé une architecture intégrant plusieurs magasins de mémoire de caractéristiques indépendants mais profondément interconnectés : une mémoire sensorielle rapidement mise à jour, une mémoire opérationnelle à haute résolution et une mémoire à long terme compacte et durable. De manière cruciale, nous avons élaboré un algorithme de potentiatisation de la mémoire qui consolide régulièrement les éléments actuellement utilisés de la mémoire opérationnelle dans la mémoire à long terme, évitant ainsi l'explosion de la mémoire et minimisant le décrochage des performances pour les prédictions à long terme. Associée à un nouveau mécanisme de lecture de la mémoire, XMem dépasse largement les performances des méthodes actuelles sur des ensembles de données vidéo longues tout en étant comparable aux méthodes les plus avancées (qui ne fonctionnent pas sur des vidéos longues) sur des ensembles de données vidéo courtes. Le code est disponible à l'adresse https://hkchengrex.github.io/XMem.