En faveur des modèles en ligne pour la segmentation d'instances vidéo

Ces dernières années, la segmentation d’instances vidéo (VIS) a connu un progrès considérable grâce aux modèles hors ligne, tandis que les modèles en ligne ont progressivement attiré moins d’attention, probablement en raison de leurs performances inférieures. Toutefois, les méthodes en ligne présentent un avantage intrinsèque dans la gestion de séquences vidéo longues et de vidéos en cours d’acquisition, un domaine où les modèles hors ligne échouent en raison des contraintes de ressources computationnelles. Il serait donc hautement souhaitable que les modèles en ligne puissent atteindre des performances comparables, voire supérieures, à celles des modèles hors ligne. En analysant en détail les modèles en ligne et hors ligne actuels, nous démontrons que la principale cause du fossé de performance réside dans l’association erronée entre cadres, due à la similarité d’apparence entre différentes instances dans l’espace des caractéristiques. À la lumière de cette observation, nous proposons un cadre en ligne fondé sur l’apprentissage contrastif, capable d’apprendre des embeddings d’instances plus discriminants pour l’association, tout en exploitant pleinement les informations historiques pour garantir une stabilité accrue. Malgré sa simplicité, notre méthode surpasse toutes les approches en ligne et hors ligne sur trois benchmarks. Plus précisément, nous obtenons un score de 49,5 AP sur YouTube-VIS 2019, une amélioration significative de 13,2 AP par rapport à l’état de l’art en ligne et de 2,1 AP par rapport à l’état de l’art hors ligne. En outre, nous atteignons 30,2 AP sur OVIS, un jeu de données plus exigeant, marqué par une forte densité et des occlusions importantes, dépassant ainsi l’état de l’art précédent de 14,8 AP. La méthode proposée a remporté la première place dans la catégorie segmentation d’objets vidéo du 4e Défi de segmentation d’objets vidéo à grande échelle (CVPR2022). Nous espérons que la simplicité et l’efficacité de notre approche, ainsi que nos insights sur les méthodes actuelles, pourront éclairer les recherches futures dans le domaine de la VIS.