Descripteur Twin-Net : Mining négatif jumeau avec une perte quad pour l’appariement basé sur des patches
La correspondance de points clés locaux constitue une étape essentielle dans les tâches de vision par ordinateur. Ces dernières années, des stratégies fondées sur les réseaux de neurones convolutifs profonds (CNN) ont été employées pour apprendre la génération de descripteurs afin d’améliorer la précision de la correspondance des points clés. Les travaux les plus récents dans ce domaine s’appuient principalement sur une fonction de perte basée sur des triplets (et ses variantes), qui utilise trois échantillons : un élément d’ancrage, un élément positif et un élément négatif. Dans ce travail, nous proposons une nouvelle stratégie d’échantillonnage basée sur le « mining de doubles négatifs » (Twin Negative Mining), combinée à une fonction de perte quad (Quad loss), pour entraîner une architecture de réseau neuronal profond (Twin-Net) afin de générer un descripteur robuste offrant une meilleure capacité discriminante pour distinguer des patches ne correspondant pas à la même localisation. Notre stratégie d’échantillonnage et notre choix de fonction de perte visent à établir une borne supérieure : les descripteurs de deux patches représentant la même localisation ne peuvent, au pire, être plus dissimilaires que ceux de deux patches similaires en apparence mais n’appartenant pas à la même position 3D. Cette approche améliore ainsi la capacité de généralisation du réseau et permet à Twin-Net de surpasser ses prédécesseurs sur les mêmes jeux de données. Twin-Net produit un descripteur de dimension 128 et utilise la distance L2 comme métrique de similarité, ce qui le rend compatible avec les pipelines classiques de correspondance de descripteurs, tels que ceux de SIFT. Nos résultats sur les jeux de données Brown et HPatches démontrent que Twin-Net présente une performance constamment supérieure, ainsi qu’une meilleure capacité discriminante et une meilleure généralisation par rapport aux méthodes d’état de l’art.