Apprentissage non supervisé de repères d'objets par plongements spatiaux factorisés

L'apprentissage automatique de la structure des catégories d'objets reste un problème important et ouvert en vision par ordinateur. Dans cet article, nous proposons une nouvelle approche non supervisée capable de découvrir et d'apprendre les points caractéristiques (landmarks) dans les catégories d'objets, permettant ainsi de caractériser leur structure. Notre approche repose sur la factorisation des déformations d'image, telles que celles induites par un changement de point de vue ou une déformation de l'objet, en apprenant un réseau neuronal profond qui détecte ces points caractéristiques de manière cohérente avec ces effets visuels. De plus, nous montrons que les points caractéristiques appris établissent des correspondances significatives entre différentes instances d'objets au sein d'une catégorie sans qu'il soit nécessaire d'imposer explicitement cette exigence. Nous évaluons qualitativement la méthode sur une variété de types d'objets, naturels et fabriqués. Nous démontrons également que nos points caractéristiques non supervisés sont fortement prédictifs des points caractéristiques annotés manuellement dans les jeux de données standards pour les visages, et peuvent être utilisés pour régresser ceux-ci avec un haut degré de précision.