Suivi de tout avec une segmentation vidéo découplée

Les données d'entraînement pour la segmentation vidéo sont coûteuses à annoter. Cela entrave l'extension des algorithmes de bout en bout à de nouvelles tâches de segmentation vidéo, en particulier dans les contextes à vocabulaire étendu. Pour pouvoir « suivre n'importe quoi » sans avoir à entraîner sur des données vidéo pour chaque tâche individuelle, nous développons une approche de segmentation vidéo décorrélée (DEVA), composée d'une segmentation au niveau des images spécifique à la tâche et d'une propagation temporelle bidirectionnelle indépendante de la classe ou de la tâche. Grâce à cette conception, nous avons seulement besoin d'un modèle au niveau des images pour la tâche cible (qui est moins coûteux à entraîner) et d'un modèle de propagation temporelle universel qui est entraîné une seule fois et se généralise entre les tâches. Pour combiner efficacement ces deux modules, nous utilisons une propagation bidirectionnelle pour la fusion (semi-)en ligne des hypothèses de segmentation issues de différents cadres afin de générer une segmentation cohérente. Nous montrons que cette formulation décorrélée se compare favorablement aux approches de bout en bout dans plusieurs tâches où les données sont rares, notamment la segmentation panoramique vidéo à grand vocabulaire, la segmentation vidéo du monde ouvert, la segmentation vidéo par référence et la segmentation d'objets vidéo non supervisée. Le code est disponible à : https://hkchengrex.github.io/Tracking-Anything-with-DEVA