Propagation d'objets via des attentions inter-images pour une segmentation d'instances vidéo temporellement stable

La segmentation d'instances vidéo vise à détecter, segmenter et suivre les objets au sein d'une vidéo. Les approches actuelles étendent les algorithmes de segmentation au niveau d'image au domaine temporel. Toutefois, cela entraîne des masques temporellement instables. Dans ce travail, nous identifions la qualité des masques, due à l'instabilité temporelle, comme un goulot d'étranglement des performances. Motivés par cette observation, nous proposons une méthode de segmentation d'instances vidéo qui atténue le problème lié aux détections manquantes. Étant donné qu'il n'est pas possible de résoudre ce problème uniquement à l'aide d'informations spatiales, nous exploitons le contexte temporel grâce à des mécanismes d'attention inter-images. Cela permet à notre réseau de se recentrer sur les objets manquants en s'appuyant sur les prédictions de boîtes issues des images voisines, permettant ainsi de surmonter les détections manquantes. Notre méthode dépasse significativement les algorithmes de pointe précédents utilisant le modèle de base Mask R-CNN, en atteignant un score mAP de 36,0 % sur le benchmark YouTube-VIS. En outre, notre méthode est entièrement en ligne et ne nécessite aucune image future. Le code est disponible publiquement à l'adresse suivante : https://github.com/anirudh-chakravarthy/ObjProp.