il y a 17 jours

Régularisation anisotrope pour l'apprentissage profond des métriques basé sur des proxys

Karsten Roth, Oriol Vinyals, Zeynep Akata

Résumé

L'apprentissage profond de métriques (Deep Metric Learning, DML) vise à apprendre des espaces de représentation où les relations sémantiques peuvent être exprimées simplement à l’aide de métriques de distance prédéfinies. Les approches les plus performantes exploitent couramment des proxys de classes comme substituts des échantillons, afin d’améliorer la convergence et la généralisation. Toutefois, ces méthodes basées sur les proxys optimisent uniquement les distances entre échantillons et proxys. Étant donné la nature non bijective intrinsèque des fonctions de distance utilisées, cela peut entraîner des distributions d’échantillons localement isotropes, conduisant à une perte de contexte sémantique crucial en raison des difficultés à résoudre les structures locales et les relations intra-classes entre échantillons. Pour atténuer ce problème, nous proposons une régularisation en non-isotropie ($\mathbb{NIR}$) pour l’apprentissage profond de métriques basé sur les proxys. En exploitant les flows de normalisation (Normalizing Flows), nous imposons une traductibilité unique des échantillons par rapport à leurs proxys respectifs de classe. Cela permet de forcer explicitement une distribution non isotrope des échantillons autour d’un proxy, que l’objectif peut alors optimiser. Ainsi, nous dotons les objectifs basés sur les proxys d’une capacité accrue à apprendre les structures locales. Des expériences étendues mettent en évidence les avantages constants en généralisation apportés par $\mathbb{NIR}$, tout en atteignant des performances compétitives et de pointe sur les benchmarks standards CUB200-2011, Cars196 et Stanford Online Products. De plus, nous constatons que les propriétés de convergence supérieures des méthodes basées sur les proxys sont maintenues, voire améliorées, ce qui rend $\mathbb{NIR}$ particulièrement attrayant pour une utilisation pratique. Le code est disponible à l’adresse suivante : https://github.com/ExplainableML/NonIsotropicProxyDML.