S2SD : Distillation auto-supervisée basée sur la similarité en temps réel pour l'apprentissage profond de métriques

L’apprentissage métrique profond (Deep Metric Learning, DML) constitue un outil essentiel pour les applications de similarité visuelle et zéro-shot en apprenant des espaces d’encodage généralisables. Toutefois, les travaux récents en DML ont révélé une saturation des performances par rapport aux objectifs d’entraînement. Or, la capacité de généralisation est connue pour croître avec la dimension de l’espace d’encodage. Malheureusement, les encodages de haute dimension entraînent un coût de récupération accru pour les applications en aval. Pour remédier à cela, nous proposons \emph{Simultaneous Similarity-based Self-distillation (S2SD)}. S2SD étend le DML par une distillation de connaissances issue d’espaces d’encodage et de caractéristiques auxiliaires de haute dimension, permettant ainsi d’exploiter un contexte complémentaire durant l’entraînement, tout en préservant le coût au moment du test et en n’augmentant qu’exceptionnellement le temps d’entraînement. Des expériences et analyses ablatives menées sur divers objectifs et benchmarks standards montrent que S2SD permet d’obtenir des améliorations significatives, atteignant jusqu’à 7 % d’augmentation du Recall@1, tout en établissant une nouvelle borne supérieure de performance. Le code est disponible à l’adresse suivante : https://github.com/MLforHealth/S2SD.