Deep Closest Point : Apprentissage de représentations pour l'enregistrement de nuages de points

L'alignement de nuages de points est un problème clé pour la vision par ordinateur appliquée à la robotique, l'imagerie médicale et d'autres applications. Ce problème consiste à trouver une transformation rigide d'un nuage de points vers un autre afin qu'ils s'alignent. Les méthodes itératives telles que l'algorithme Iterative Closest Point (ICP) et ses variantes offrent des solutions simples et faciles à implémenter pour cette tâche, mais ces algorithmes peuvent converger vers des optima locaux erronés. Pour remédier aux optima locaux et aux autres difficultés rencontrées dans le pipeline ICP, nous proposons une méthode basée sur l'apprentissage, intitulée Deep Closest Point (DCP), inspirée des techniques récentes en vision par ordinateur et en traitement du langage naturel. Notre modèle se compose de trois parties : un réseau d'embedding de nuages de points, un module basé sur l'attention combiné avec une couche de génération pointeur pour approcher le couplage combinatoire, et une couche de décomposition en valeurs singulières (SVD) différentiable pour extraire la transformation rigide finale. Nous entraînons notre modèle de manière end-to-end sur le jeu de données ModelNet40 et montrons dans plusieurs configurations qu'il performe mieux que l'ICP, ses variantes (par exemple, Go-ICP, FGR) et la méthode basée sur l'apprentissage récemment proposée PointNetLK. Outre la fourniture d'une technique d'alignement d'avant-garde, nous évaluons la pertinence des caractéristiques apprises transférées à des objets inconnus. Nous fournissons également une analyse préliminaire de notre modèle appris afin de comprendre si les caractéristiques spécifiques au domaine et/ou globales facilitent l'alignement rigide.