HyperAIHyperAI
il y a 2 mois

Apprentissage non supervisé de repères d'objets par génération conditionnelle d'images

Tomas Jakab; Ankush Gupta; Hakan Bilen; Andrea Vedaldi
Apprentissage non supervisé de repères d'objets par génération conditionnelle d'images
Résumé

Nous proposons une méthode pour apprendre des détecteurs de points caractéristiques d'objets visuels (comme les yeux et le nez dans un visage) sans aucune supervision manuelle. Nous formulons ce problème comme celui de la génération d'images qui combinent l'apparence de l'objet telle qu'elle est vue dans une première image exemple avec la géométrie de l'objet telle qu'elle est vue dans une seconde image exemple, où les deux exemples diffèrent par un changement de point de vue et/ou une déformation de l'objet. Pour factoriser l'apparence et la géométrie, nous introduisons une bouteille d'étranglement serrée dans le processus d'extraction de la géométrie qui sélectionne et distille les caractéristiques liées à la géométrie. Comparativement aux problèmes standards de génération d'images, qui utilisent souvent des réseaux génératifs adverses, notre tâche de génération est conditionnée par l'apparence et la géométrie, ce qui rend le problème beaucoup moins ambigu, au point que l'adoption d'une formulation simple de perte perceptive suffit. Nous démontrons que notre approche peut apprendre les points caractéristiques des objets à partir de déformations synthétiques d'images ou de vidéos, tout cela sans supervision manuelle, tout en surpassant les détecteurs non supervisés les plus performants actuellement disponibles. Nous montrons également que notre méthode est applicable à une grande variété de jeux de données - visages, personnes, objets 3D et chiffres - sans aucune modification.