MinVIS : Un cadre de segmentation d'instances vidéo minimal sans entraînement basé sur des vidéos

Nous proposons MinVIS, un cadre minimal pour la segmentation d'instances vidéo (VIS) qui atteint des performances de pointe en VIS sans recourir à des architectures ou procédés d'entraînement spécifiquement conçus pour les vidéos. En ne formant qu'un modèle de segmentation d'instances d'images basé sur des requêtes, MinVIS dépasse de plus de 10 % en AP le meilleur résultat précédent sur le jeu de données exigeant Occluded VIS. Étant donné que MinVIS traite les trames des vidéos d'entraînement comme des images indépendantes, nous pouvons réduire de manière drastique l'échantillonnage des trames annotées sans aucune modification. Avec seulement 1 % des trames étiquetées, MinVIS surpasse ou se compare favorablement aux approches d'état de l'art entièrement supervisées sur YouTube-VIS 2019/2021. Notre observation clé est que les requêtes entraînées pour être discriminantes entre les instances d'objets au sein d'une même trame présentent une cohérence temporelle et peuvent être utilisées pour suivre les instances sans aucune heuristique manuellement conçue. MinVIS adopte donc la pipeline d'inférence suivante : nous appliquons d'abord le modèle entraîné de segmentation d'instances d'images basé sur des requêtes aux trames vidéo de manière indépendante. Les instances segmentées sont ensuite suivies par correspondance bipartite des requêtes correspondantes. Cette inférence s'effectue de manière en ligne et ne nécessite pas de traiter toute la vidéo en une seule fois. MinVIS présente ainsi des avantages pratiques importants, en réduisant à la fois les coûts d'étiquetage et les exigences mémoire, tout en ne sacrifiant pas les performances en VIS. Le code est disponible à l'adresse suivante : https://github.com/NVlabs/MinVIS