Représenter, comparer et apprendre : un cadre conscient de la similarité pour le comptage sans tenir compte de la classe

Le comptage sans discrimination de classe (Class-agnostic counting, CAC) vise à compter tous les objets présents dans une image de requête à partir de quelques exemples. Une approche standard consiste à extraire des caractéristiques visuelles à partir des exemples, puis à les comparer à l’image de requête afin d’estimer le nombre d’objets. Deux composantes essentielles dans ce pipeline sont la représentation des caractéristiques et la métrique de similarité. Les méthodes existantes utilisent soit un réseau pré-entraîné pour représenter les caractéristiques, soit apprennent une nouvelle représentation, tout en appliquant une métrique de similarité naïve basée sur un produit scalaire fixe. Nous observons que ce paradigme conduit à des correspondances de similarité bruitées, ce qui nuit à la performance du comptage. Dans ce travail, nous proposons un cadre CAC sensible à la similarité, qui apprend simultanément la représentation et la métrique de similarité. Nous instancions d’abord notre cadre avec une base naïve appelée Bilinear Matching Network (BMNet), dont le composant clé est une métrique de similarité bilinéaire apprenable. Pour mieux illustrer le cœur de notre approche, nous étendons BMNet en BMNet+, qui modélise la similarité sous trois angles : 1) représenter les instances via leur similarité intrinsèque, afin d’améliorer la robustesse des caractéristiques face aux variations intra-classe ; 2) comparer dynamiquement les similarités pour se concentrer sur les motifs clés de chaque exemple ; 3) apprendre à partir d’un signal de supervision afin d’imposer des contraintes explicites sur les résultats de correspondance. Des expériences étendues sur un jeu de données récent de CAC, FSC147, montrent que nos modèles surpassent significativement les approches de pointe en CAC. En outre, nous validons également la généralisation inter-données de BMNet et BMNet+ sur un jeu de données de comptage de voitures, CARPK. Le code est disponible à l’adresse tiny.one/BMNet.