La classification est une base solide pour l'apprentissage profond de métriques.

L'apprentissage de métriques profondes vise à apprendre une fonction qui mappe les pixels d'une image à des vecteurs de caractéristiques d'embedding modélisant la similarité entre les images. Deux applications majeures de l'apprentissage de métriques sont la recherche d'images basée sur le contenu et la vérification faciale. Pour les tâches de recherche, la majorité des approches actuelles de pointe (SOTA) utilisent un entraînement non paramétrique basé sur des triplets. En revanche, pour les tâches de vérification faciale, les approches SOTA récentes ont adopté un entraînement paramétrique basé sur la classification. Dans cet article, nous examinons l'efficacité des approches basées sur la classification sur des ensembles de données de recherche d'images. Nous évaluons ces approches sur plusieurs ensembles de données standard de recherche tels que CAR-196, CUB-200-2011, Stanford Online Product et In-Shop pour la recherche et le regroupement d'images, et nous établissons que notre approche basée sur la classification est compétitive dans différentes dimensions de caractéristiques et avec différents réseaux de caractéristiques de base. Nous fournissons également des pistes d'analyse concernant les effets sur les performances du sous-échantillonnage des classes pour un entraînement par classification à grande échelle, ainsi que les effets de la binarisation, permettant un stockage et un calcul efficaces pour des applications pratiques.