HyperAIHyperAI
il y a 17 jours

Transfinateur de masque vidéo pour une segmentation d'instances vidéo de haute qualité

Lei Ke, Henghui Ding, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu
Transfinateur de masque vidéo pour une segmentation d'instances vidéo de haute qualité
Résumé

Bien que la segmentation d’instances vidéo (VIS) ait connu un progrès rapide, les approches actuelles peinent à prédire des masques de haute qualité dotés de détails précis aux frontières. De plus, les segmentations prédites présentent souvent des fluctuations au fil du temps, ce qui suggère que les indices de cohérence temporelle sont soit négligés, soit mal exploités. Dans cet article, nous abordons ces problèmes dans le but d’obtenir des prédictions de masques plus détaillées et plus stables temporellement pour la VIS. Nous proposons tout d’abord la méthode Video Mask Transfiner (VMT), capable d’exploiter des caractéristiques haute résolution à fort grain grâce à une structure de transformateur vidéo particulièrement efficace. Notre VMT détecte et regroupe les régions spatio-temporelles peu fiables, rares, de chaque trajectoire dans la séquence vidéo, puis les affine à l’aide à la fois de signaux locaux et d’informations au niveau de l’instance. Ensuite, nous identifions que les annotations de frontières grossières du jeu de données YouTube-VIS populaire constituent un facteur limitant majeur. À partir de notre architecture VMT, nous concevons donc une approche automatisée de révision des annotations par apprentissage itératif et auto-correction. Pour évaluer les prédictions de masques de haute qualité dans le cadre de la VIS, nous introduisons le jeu de données HQ-YTVIS, composé d’un ensemble de test ré-annoté manuellement et de données d’entraînement révisées automatiquement. Nous comparons VMT aux méthodes les plus récentes de l’état de l’art sur HQ-YTVIS, ainsi que sur les benchmarks YouTube-VIS, OVIS et BDD100K MOTS. Les résultats expérimentaux démontrent clairement l’efficacité et l’efficience de notre méthode pour segmenter des objets complexes et dynamiques, en capturant des détails précis.