AutoLink : Apprentissage auto-supervisé des squelettes humains et des contours d'objets par le lien de points clés

Les représentations structurées, telles que les points clés (keypoints), sont largement utilisées dans le transfert de posture, la génération d'images conditionnelle, l'animation et la reconstruction 3D. Cependant, leur apprentissage supervisé nécessite des annotations coûteuses pour chaque domaine cible. Nous proposons une méthode d'apprentissage auto-supervisé qui apprend à dissocier la structure de l'objet de son apparence grâce à un graphe de points clés 2D liés par des arêtes droites. Les positions des points clés ainsi que leurs poids d'arête en paires sont appris, en se basant uniquement sur une collection d'images représentant la même classe d'objets. Le graphe résultant est interprétable ; par exemple, AutoLink récupère la topologie du squelette humain lorsqu'il est appliqué à des images montrant des personnes. Nos ingrédients clés sont : i) un encodeur qui prédit les positions des points clés dans une image d'entrée, ii) un graphe partagé en tant que variable latente qui relie les mêmes paires de points clés dans chaque image, iii) une carte d'arêtes intermédiaire qui combine les poids des arêtes du graphe latent et les positions des points clés de manière douce et différentiable, et iv) un objectif de complétion (inpainting) sur des images masquées aléatoirement. Bien qu'il soit plus simple, AutoLink surpasses les méthodes auto-supervisées existantes sur les benchmarks établis pour l'estimation des points clés et de la posture, ouvrant ainsi la voie aux modèles génératifs conditionnés par la structure sur des jeux de données plus diversifiés. Site web du projet : https://xingzhehe.github.io/autolink/.