IF-Net : Un réseau de caractéristiques invariant à l'éclairage

La correspondance des descripteurs de caractéristiques constitue une étape fondamentale dans de nombreuses applications de vision par ordinateur, telles que le collage d’images, la recherche d’images et la localisation visuelle. Toutefois, elle est fréquemment affectée par divers facteurs pratiques qui dégradent sa performance. Parmi ces facteurs, les variations d’éclairage sont les plus influents, et notamment, aucune méthode antérieure d’apprentissage de descripteurs ne s’est spécifiquement attaquée à ce problème. Dans cet article, nous proposons IF-Net, une méthode conçue pour générer un descripteur robuste et généralisable dans des conditions de variations d’éclairage importantes. Nous constatons que non seulement le type de données d’entraînement est crucial, mais aussi l’ordre dans lequel elles sont présentées. À cet effet, nous étudions plusieurs stratégies de planification de jeux de données et proposons un schéma d’entraînement par séparation afin d’améliorer la précision de correspondance. Par ailleurs, nous introduisons une fonction de perte basée sur les régions d’intérêt (ROI loss) ainsi qu’une stratégie d’exploitation de positifs difficiles (hard-positive mining), combinées à ce schéma d’entraînement, pour renforcer la capacité du descripteur généré à traiter des changements d’éclairage importants. Nous évaluons notre approche sur un benchmark public de correspondance de patches et obtenons les meilleurs résultats par rapport à plusieurs méthodes de pointe. Pour démontrer sa pertinence pratique, nous évaluons également IF-Net sur la tâche de localisation visuelle dans des scènes présentant de fortes variations d’éclairage, où elle atteint la meilleure précision de localisation.