Apprentissage de régressions spatiales pour le suivi visuel

Dans cet article, nous analysons les informations spatiales des caractéristiques profondes et proposons deux régressions complémentaires pour un suivi visuel robuste. Premièrement, nous proposons un modèle de régression à noyau ridge (kernelized ridge regression) dans lequel la valeur du noyau est définie comme la somme pondérée des scores de similarité de tous les paires de patchs entre deux échantillons. Nous montrons que ce modèle peut être formulé sous forme de réseau neuronal et donc résolu efficacement. Deuxièmement, nous proposons un réseau neuronal convolutif entièrement convolutionnel avec des noyaux régularisés spatialement, grâce auquel le filtre noyau correspondant à chaque canal de sortie est contraint de se concentrer sur une région spécifique de la cible. La transformation en distance d'agrégation (distance transform pooling) est utilisée pour déterminer l'efficacité de chaque canal de sortie de la couche convolutive. Les sorties du modèle de régression à noyau ridge et du réseau neuronal convolutif entièrement convolutionnel sont combinées pour obtenir la réponse finale. Les résultats expérimentaux sur deux jeux de données de référence valident l'efficacité de la méthode proposée.