il y a 18 jours

MIC : Extraction des caractéristiques interclasses pour un apprentissage métrique amélioré

Karsten Roth, Biagio Brattoli, Björn Ommer

Résumé

L’apprentissage de métriques vise à intégrer des images d’objets de manière à ce que les relations définies par les classes soient capturées par l’espace d’encodage. Toutefois, la variabilité des images ne provient pas uniquement des différentes classes d’objets représentées, mais dépend également d’autres caractéristiques latentes, telles que le point de vue ou l’éclairage. En plus de ces propriétés structurées, le bruit aléatoire aggrave encore la perturbation des relations visuelles d’intérêt. La méthode courante en apprentissage de métriques consiste à imposer une représentation invariante par rapport à tous les facteurs sauf ceux d’intérêt. À l’inverse, nous proposons d’apprendre explicitement les caractéristiques latentes partagées entre les différentes classes d’objets. Ainsi, nous pouvons expliquer directement la variabilité visuelle structurée, plutôt que de l’assimiler à un bruit aléatoire inconnu. Nous introduisons une nouvelle tâche substitutive pour apprendre des caractéristiques visuelles communes aux classes à l’aide d’un encodeur distinct. Cet encodeur est entraîné conjointement avec l’encodeur de l’information de classe en minimisant leur information mutuelle. Sur cinq benchmarks standard de récupération d’images, notre approche dépasse significativement l’état de l’art.