PADS : Échantillonnage Adapté aux Politiques pour l'Apprentissage de la Similarité Visuelle

L’apprentissage de la similarité visuelle nécessite d’apprendre des relations, généralement entre des triplets d’images. Bien que les approches basées sur les triplets soient puissantes, leur complexité computationnelle limite principalement l’entraînement à un sous-ensemble des triplets possibles. Par conséquent, les stratégies d’échantillonnage, qui déterminent quels échantillons utiliser à quel moment pendant l’apprentissage, sont cruciales. Actuellement, le paradigme dominant repose sur des stratégies d’échantillonnage fixes ou curriculaires, prédéfinies avant le début de l’entraînement. Toutefois, le problème exige véritablement un processus d’échantillonnage adaptable, qui s’ajuste en fonction de l’état réel de la représentation de similarité visuelle pendant l’entraînement. Nous proposons donc d’employer l’apprentissage par renforcement, en faisant évoluer une réseau enseignant qui ajuste la distribution d’échantillonnage en fonction de l’état actuel du réseau apprenant, représentant la similarité visuelle. Des expériences sur des jeux de données standard utilisant des pertes basées sur les triplets montrent que notre stratégie d’échantillonnage adaptative surpasse significativement les stratégies fixes. En outre, bien que notre approche d’échantillonnage adaptatif soit appliquée uniquement sur des cadres fondamentaux d’apprentissage par triplets, elle atteint des résultats compétitifs par rapport aux méthodes de pointe qui utilisent des signaux d’apprentissage supplémentaires variés ou des architectures d’ensembles complexes. Le code est disponible à l’adresse suivante : https://github.com/Confusezius/CVPR2020_PADS.