il y a 17 jours

Apprentissage de l'estimation des mouvements cachés par agrégation de mouvement global

Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, Richard Hartley

Résumé

Les occlusions posent un défi majeur aux algorithmes de flux optique fondés sur des preuves locales. Nous considérons un point occlu comme étant un point visible dans la première image mais non dans la suivante, ce qui constitue une légère extension de la définition standard, puisqu’elle inclut également les points qui quittent le cadre. Estimer le mouvement de ces points est extrêmement difficile, particulièrement dans le cadre à deux images. Les travaux antérieurs s’appuient sur des réseaux de neurones convolutifs (CNN) pour apprendre les occlusions, avec peu de succès, ou nécessitent plusieurs images afin de raisonner sur les occlusions en exploitant la régularité temporelle. Dans cet article, nous soutenons qu’un meilleur traitement des occlusions dans le cas à deux images peut être obtenu en modélisant les auto-similarités d’image. Nous introduisons un module d’agrégation de mouvement global, une approche basée sur les transformateurs, permettant de détecter les dépendances à longue portée entre les pixels de la première image, et d’effectuer une agrégation globale sur les caractéristiques de mouvement correspondantes. Nous démontrons que les estimations de flux optique dans les régions occlues peuvent être considérablement améliorées sans compromettre les performances dans les régions non occlues. Cette méthode atteint de nouveaux résultats d’état de l’art sur le jeu de données exigeant Sintel, avec une réduction de 13,6 % de l’erreur moyenne en point d’arrivée sur Sintel Final et de 13,7 % sur Sintel Clean. Au moment de la soumission, notre méthode se classe en tête de ces benchmarks parmi toutes les approches publiées et non publiées. Le code est disponible à l’adresse suivante : https://github.com/zacjiang/GMA