Apprentissage d'un réseau siamois dynamique pour le suivi d'objets visuels

Comment apprendre efficacement les variations temporelles de l’apparence de la cible, tout en éliminant les interférences dues au fond encombré, tout en maintenant une réponse en temps réel, constitue un problème fondamental du suivi d’objets visuels. Récemment, les réseaux Siamese ont montré un grand potentiel pour les méthodes de suivi basées sur le matching, offrant un bon compromis entre précision et vitesse au-delà du temps réel. Toutefois, ils présentent encore un écart important par rapport aux méthodes basées sur la classification et la mise à jour, notamment en ce qui concerne la tolérance aux variations temporelles de l’objet et aux conditions d’acquisition d’image. Dans cet article, nous proposons un réseau Siamese dynamique, fondé sur un modèle d’apprentissage de transformation rapide, permettant une apprentissage en ligne efficace des variations d’apparence de la cible ainsi que la suppression du fond à partir des cadres précédents. Nous introduisons également une fusion multi-couche élément par élément, permettant d’intégrer de manière adaptative les sorties du réseau à l’aide de caractéristiques profondes à plusieurs niveaux. Contrairement aux méthodes de pointe actuelles, notre approche permet d’utiliser n’importe quelles caractéristiques convenablement entraînées, qu’elles soient générales ou spécifiques, telles que SiamFC ou VGG. Plus important encore, le réseau Siamese dynamique proposé peut être entraîné de manière conjointe directement sur des séquences vidéo étiquetées, exploitant ainsi pleinement l’information spatiale et temporelle riche des objets en mouvement. En conséquence, notre méthode atteint des performances de pointe sur les benchmarks OTB-2013 et VOT-2015, tout en offrant un équilibre supérieur entre précision et réponse en temps réel par rapport aux méthodes de référence les plus avancées.