L'échantillonnage est crucial dans l'apprentissage par plongement profond.

Les plongements profonds (deep embeddings) répondent à une question simple : à quel point deux images sont-elles similaires ? L'apprentissage de ces plongements est la base de la vérification, de l'apprentissage par zéro exemple (zero-shot learning) et de la recherche visuelle. Les approches les plus courantes optimisent un réseau neuronal convolutif profond avec une fonction de perte appropriée, telle que la perte contrastive ou la perte triplet. Bien que de nombreuses recherches se concentrent uniquement sur les fonctions de perte, nous montrons dans cet article que la sélection des exemples d'entraînement joue un rôle tout aussi important. Nous proposons l'échantillonnage pondéré par distance, qui sélectionne des exemples plus informatifs et stables que les approches traditionnelles. De plus, nous démontrons qu'une simple perte basée sur une marge est suffisante pour surpasser toutes les autres fonctions de perte. Nous évaluons notre méthode sur les ensembles de données Stanford Online Products, CAR196 et CUB200-2011 pour la recherche d'images et le regroupement, ainsi que sur l'ensemble de données LFW pour la vérification faciale. Notre méthode atteint des performances d'état de l'art sur tous ces ensembles de données.