Les exemples négatifs difficiles sont difficiles, mais utiles

La perte de triplet est une approche extrêmement courante dans l'apprentissage des métriques de distance. Les représentations d'images appartenant à la même classe sont optimisées pour être plus proches les unes des autres dans un espace d'embedding que les représentations d'images issues de classes différentes. Une grande partie des travaux portant sur les pertes de triplet se concentre sur la sélection des triplets les plus utiles à considérer, en adoptant des stratégies qui choisissent des exemples dissimilaires appartenant à la même classe ou des exemples similaires provenant de classes différentes. La communauté scientifique s'est largement accordée sur le fait qu'une optimisation basée sur les exemples négatifs les plus difficiles (hardest negatives) conduit à un comportement d'entraînement défectueux. Or, ces exemples négatifs les plus difficiles sont précisément ceux où la métrique de distance échoue à capturer la similarité sémantique. Dans cet article, nous caractérisons l'espace des triplets et expliquons pourquoi les exemples négatifs difficiles entraînent l'échec de l'apprentissage avec la perte de triplet. Nous proposons une solution simple à la fonction de perte, et montrons qu’avec cette correction, l’optimisation basée sur les exemples négatifs difficiles devient réalisable. Cela permet d’obtenir des caractéristiques plus généralisables, ainsi que des résultats en récupération d’images supérieurs à l’état de l’art sur des jeux de données présentant une forte variance intra-classe.