Apprentissage de l'endroit à focaliser pour une détection d'objets vidéo efficace

Le transfert des détecteurs basés sur des images vers la vidéo s’avère non trivial, car la qualité des trames est constamment altérée par des occlusions partielles, des poses rares et le flou de mouvement. Les approches précédentes cherchent à propager et agréger les caractéristiques à travers les trames vidéo en utilisant une transformation par flux optique. Toutefois, l’application directe du flux optique au niveau des images aux caractéristiques de haut niveau peut ne pas établir de correspondances spatiales précises. Ainsi, un nouveau module, appelé Échantillonnage Spatio-Temporel Apprenable (LSTS), a été proposé afin d’apprendre de manière précise les correspondances au niveau sémantique entre les caractéristiques de trames adjacentes. Les positions d’échantillonnage sont initialement définies aléatoirement, puis mises à jour itérativement pour trouver des correspondances spatiales améliorées, guidées progressivement par une supervision de détection. Par ailleurs, deux autres modules sont introduits : le module de mise à jour récursive éparse (SRFU) pour modéliser les relations temporelles, et le module d’agrégation dense des caractéristiques (DFA) pour renforcer les caractéristiques par trame. Sans recourir à des améliorations superflues, la méthode proposée atteint des performances de pointe sur le jeu de données ImageNet VID, tout en présentant une complexité computationnelle réduite et une vitesse en temps réel. Le code source sera rendu disponible à l’adresse suivante : https://github.com/jiangzhengkai/LSTS.