Il faut deux pour danser la tango : Mixup pour l'apprentissage profond des métriques

L'apprentissage de métriques consiste à apprendre une représentation discriminative telle que les embeddings des classes similaires soient rapprochés, tandis que ceux des classes dissimilaires sont éloignés. Les méthodes les plus avancées se concentrent principalement sur des fonctions de perte sophistiquées ou des stratégies d'extraction de données. D’un côté, les fonctions de perte d’apprentissage de métriques traitent deux ou plusieurs exemples à la fois. De l’autre, les méthodes modernes d’augmentation de données pour la classification considèrent également deux ou plusieurs exemples simultanément. La combinaison de ces deux idées reste peu explorée.Dans ce travail, nous visons à combler cet écart et à améliorer les représentations en utilisant Mixup, une approche puissante d’augmentation de données qui interpole simultanément deux ou plusieurs exemples ainsi que leurs étiquettes cibles. Ce problème est difficile, car contrairement à la classification, les fonctions de perte utilisées dans l’apprentissage de métriques ne sont pas additives par rapport aux exemples, rendant l’interpolation des étiquettes cibles non immédiate. À notre connaissance, nous sommes les premiers à explorer systématiquement l’interpolation à la fois des exemples et des étiquettes cibles dans le cadre de l’apprentissage de métriques profondes. Nous proposons une formulation généralisée qui englobe les fonctions de perte existantes en apprentissage de métriques, puis la modifions pour l’adapter à Mixup, introduisant ainsi une nouvelle méthode appelée Metric Mix, ou Metrix. Nous introduisons également une nouvelle métrique, appelée « utilisation », pour démontrer qu’en mélangeant les exemples durant l’entraînement, nous explorons des régions de l’espace d’embeddings situées au-delà des classes d’entraînement, ce qui améliore significativement les représentations. Pour valider l’effet des représentations améliorées, nous montrons que le mélange des entrées, des représentations intermédiaires ou des embeddings combiné à l’interpolation des étiquettes cibles permet d’obtenir des performances nettement supérieures aux méthodes de pointe en apprentissage de métriques profondes sur quatre jeux de données standard.