HyperAIHyperAI
il y a 3 mois

Anchor Diffusion pour la segmentation non supervisée d'objets dans les vidéos

Zhao Yang, Qiang Wang, Luca Bertinetto, Weiming Hu, Song Bai, Philip H.S. Torr
Anchor Diffusion pour la segmentation non supervisée d'objets dans les vidéos
Résumé

La segmentation non supervisée d'objets dans les vidéos a traditionnellement été abordée à l'aide de méthodes basées sur les réseaux de neurones récurrents et le flux optique. Malgré leur complexité, ces approches ont tendance à privilégier les dépendances temporelles à court terme, ce qui les rend sujettes à l'accumulation d'erreurs, entraînant un dérivage au fil du temps. En outre, des modèles simples (statiques) de segmentation d'images parviennent, seuls, à rivaliser efficacement avec ces méthodes, ce qui suggère fortement que la modélisation des dépendances temporelles devrait être repensée. Inspirés par ces observations, nous explorons dans cet article des stratégies simples mais efficaces pour modéliser les dépendances temporelles à long terme. Inspirés par les opérateurs non locaux proposés dans [70], nous introduisons une technique permettant d'établir des correspondances denses entre les embeddings des pixels d'une trame de référence « ancrage » et celle du cadre courant. Cette approche permet d'apprendre des dépendances par paires à des distances arbitrairement longues, sans conditionnement sur les cadres intermédiaires. Sans supervision en ligne, notre méthode parvient à supprimer le fond et à segmenter précisément l'objet de premier plan, même dans des scénarios difficiles, tout en maintenant une performance cohérente dans le temps. Avec un IoU moyen de $81,7\%$, notre approche se classe en tête du classement des méthodes non supervisées sur DAVIS-2016, tout en restant compétitive face aux meilleures approches semi-supervisées en ligne de l'état de l'art. Nous évaluons également notre méthode sur les jeux de données FBMS et ViSal, où elle obtient des résultats comparables à l'état de l'art.