Apprentissage de Métriques avec HORDE : Régulariseur d'Ordre Supérieur pour les Plongements Profonds

L'apprentissage d'une mesure de similarité efficace entre les représentations d'images est essentiel au succès des récentes avancées dans les tâches de recherche visuelle (par exemple, la vérification ou l'apprentissage par zéro-shot). Bien que la partie apprentissage de métrique soit bien abordée, cette métrique est généralement calculée sur la moyenne des caractéristiques profondes extraites. Cette représentation est ensuite formée pour être discriminante. Cependant, ces caractéristiques profondes ont tendance à être dispersées dans l'espace des caractéristiques. Par conséquent, les représentations ne sont pas robustes aux valeurs aberrantes, aux occultations d'objets, aux variations de fond, etc. Dans cet article, nous abordons ce problème de dispersion à l'aide d'une régularisation sensible à la distribution nommée HORDE. Ce régulariseur impose que des images visuellement proches aient des caractéristiques profondes avec la même distribution, bien localisées dans l'espace des caractéristiques. Nous fournissons une analyse théorique soutenant cet effet de régularisation. Nous démontrons également l'efficacité de notre approche en obtenant des résultats de pointe sur 4 jeux de données bien connus (Cub-200-2011, Cars-196, Stanford Online Products et Inshop Clothes Retrieval).