Amélioration des Embeddings avec un Minage de Triplets Positifs Simplifié

L'apprentissage métrique profond vise à définir une représentation où les images sémantiquement similaires sont plongées dans des positions proches, tandis que les images sémantiquement dissemblables sont plongées dans des positions éloignées. De nombreux travaux se sont concentrés sur les fonctions de perte et les stratégies pour apprendre ces plongements en rapprochant au maximum les images de la même classe dans l'espace de représentation. Dans cet article, nous proposons une stratégie de plongement alternative et assouplie qui n'exige que la fonction de plongement mappe chaque image d'entraînement aux exemples les plus similaires de la même classe, une approche que nous appelons « minage des Positifs Faciles » (Easy Positive mining). Nous présentons une série d'expériences et de visualisations qui mettent en lumière le fait que ce minage des Positifs Faciles conduit à des plongements plus flexibles et qui généralisent mieux aux nouvelles données inédites. Cette stratégie de minage simple offre des performances en rappel qui surpassent celles des approches de pointe (y compris celles utilisant des fonctions de perte complexes et des méthodes d'ensemble) sur des jeux de données de recherche d'images tels que CUB, Stanford Online Products, In-Shop Clothes et Hotels-50K.