Estimation de la pose d'objet à l'aide de représentations visuelles de niveau intermédiaire

Ce travail propose un nouveau modèle d’estimation de pose pour des catégories d’objets pouvant être efficacement transférés à des environnements auparavant inconnus. Les réseaux de convolution profonds (CNN) utilisés pour l’estimation de pose sont généralement entraînés et évalués sur des jeux de données spécifiquement conçus pour la détection d’objets, l’estimation de pose ou la reconstruction 3D, ce qui nécessite une quantité importante de données d’entraînement. Dans ce travail, nous proposons un modèle d’estimation de pose pouvant être entraîné avec une petite quantité de données, basé sur des représentations intermédiaires générales \cite{taskonomy2018} (par exemple, l’estimation de la normale de surface et le re-shading). Ces représentations sont entraînées sur un grand jeu de données sans nécessiter d’étiquettes de pose ou d’objets. Par la suite, les prédictions sont affinées à l’aide d’un petit réseau neuronal CNN qui exploite les masques d’objets et la récupération de silhouettes. La méthode présentée atteint des performances supérieures sur le jeu de données Pix3D \cite{pix3d} et montre une amélioration d’environ 35 % par rapport aux modèles existants lorsque seule 25 % des données d’entraînement sont disponibles. Nous démontrons que l’approche est particulièrement favorable en termes de généralisation et de transfert vers des environnements nouveaux. À cette fin, nous introduisons un nouveau benchmark d’estimation de pose pour des catégories courantes de meubles sur le dataset d’Active Vision difficile \cite{Ammirato2017ADF}, et évaluons les modèles entraînés sur le jeu de données Pix3D.