HyperAIHyperAI
il y a 2 mois

Suivi visuel robuste par segmentation

Matthieu Paul; Martin Danelljan; Christoph Mayer; Luc Van Gool
Suivi visuel robuste par segmentation
Résumé

L'estimation de l'étendue cible constitue un défi fondamental dans le suivi d'objets visuels. Généralement, les traceurs sont centrés sur les boîtes et s'appuient entièrement sur une boîte englobante pour définir la cible dans la scène. En pratique, les objets ont souvent des formes complexes et ne sont pas alignés avec l'axe de l'image. Dans ces cas, les boîtes englobantes ne fournissent pas une description précise de la cible et contiennent souvent une majorité de pixels de fond. Nous proposons un pipeline de suivi centré sur la segmentation qui non seulement produit un masque de segmentation très précis, mais travaille également internement avec des masques de segmentation plutôt que des boîtes englobantes. Ainsi, notre traceur est capable d'apprendre une représentation cible qui distingue clairement la cible dans la scène du contenu de fond. Pour atteindre la robustesse nécessaire face au scénario de suivi difficile, nous proposons un composant distinct de localisation d'instances qui est utilisé pour conditionner le décodeur de segmentation lors de la production du masque de sortie. Nous inférons une boîte englobante à partir du masque de segmentation, validons notre traceur sur des ensembles de données de suivi difficiles et obtenons le nouvel état de l'art sur LaSOT avec un score AUC (Area Under Curve) de succès de 69,7 %. Comme la plupart des ensembles de données de suivi ne contiennent pas d'annotations de masques, nous ne pouvons pas les utiliser pour évaluer les masques de segmentation prédits. À la place, nous validons notre qualité de segmentation sur deux ensembles de données populaires pour la segmentation d'objets vidéo.