R2D2 : Détekteur et descripteur fiables et reproductibles

La détection de points d’intérêt et la description des caractéristiques locales constituent des étapes fondamentales dans de nombreuses applications de vision par ordinateur. Les approches classiques reposent sur un paradigme « détecter puis décrire », où des méthodes manuelles distinctes sont utilisées pour d’abord identifier des points d’intérêt répétitifs, puis les représenter à l’aide d’un descripteur local. Les réseaux neuronaux entraînés avec des pertes d’apprentissage par métrique ont récemment rattrapé ces techniques, en se concentrant sur l’apprentissage de cartes de saliency répétitives pour la détection de points d’intérêt ou sur l’apprentissage de descripteurs aux emplacements des points détectés. Dans ce travail, nous affirmons que les régions répétitives ne sont pas nécessairement discriminantes, pouvant ainsi conduire à sélectionner des points d’intérêt sous-optimaux. En outre, nous soutenons que les descripteurs ne devraient être appris que dans des régions où une correspondance peut être établie avec une haute confiance.Nous proposons donc d’apprendre conjointement la détection de points d’intérêt, leur description, ainsi qu’un prédicteur de discriminativité du descripteur local. Cette approche permet d’éviter les zones ambigües, conduisant ainsi à une détection et une description de points d’intérêt fiables. Notre méthode de détection et de description produit simultanément des points d’intérêt épars, répétitifs et fiables, surpassant les détecteurs et descripteurs de pointe sur le jeu de données HPatches ainsi que sur le récent benchmark de localisation Aachen Day-Night.