HyperAIHyperAI
il y a 11 jours

Trouver d’abord, suivre ensuite : Découpler l’identification et la propagation dans la segmentation d’objets vidéo par référence

Cho, Suhwan, Lee, Seunghoon, Lee, Minhyeok, Lee, Jungho, Lee, Sangyoun
Trouver d’abord, suivre ensuite : Découpler l’identification et la propagation dans la segmentation d’objets vidéo par référence
Résumé

La segmentation d'objets vidéo guidée par une référence linguistique vise à segmenter et à suivre un objet cible dans une vidéo à l’aide d’un prompt en langage naturel. Les méthodes existantes fusionnent généralement les caractéristiques visuelles et textuelles de manière fortement imbriquée, traitant conjointement les informations multimodales afin de générer des masques par trame. Toutefois, cette approche peine souvent à identifier de manière précise l’objet cible, notamment dans des scènes comportant plusieurs objets similaires, et échoue à garantir une propagation cohérente des masques d’une trame à l’autre. Pour surmonter ces limitations, nous proposons FindTrack, un cadre novateur déconnecté qui sépare explicitement l’identification de l’objet de la propagation du masque. FindTrack sélectionne d’abord de manière adaptative une trame clé en équilibrant la confiance en la segmentation et l’alignement entre la vision et le texte, établissant ainsi une référence robuste pour l’objet cible. Cette référence est ensuite exploitée par un module dédié à la propagation afin de suivre et segmenter l’objet tout au long de la vidéo. En déconnectant ces deux processus, FindTrack réduit efficacement les ambiguïtés liées à l’association des objets et améliore la cohérence de la segmentation. Nous démontrons que FindTrack surpasser les méthodes existantes sur des benchmarks publics.