Points de vue et Points clés

Nous caractérisons le problème d'estimation de la pose pour les objets rigides en termes de détermination du point de vue pour expliquer l'estimation de la pose grossière et de prédiction des points clés pour capturer les détails plus fins. Nous abordons ces deux tâches dans deux contextes différents : un cadre contraint avec des boîtes englobantes connues et un cadre de détection plus complexe où l'objectif est de détecter simultanément et d'estimer correctement la pose des objets. Nous présentons des architectures basées sur les réseaux neuronaux convolutifs (Convolutional Neural Networks) pour ces tâches et montrons que l'utilisation des estimations du point de vue peut améliorer considérablement les prédictions des points clés basées sur l'apparence locale. En plus d'obtenir des améliorations significatives par rapport à l'état de l'art dans les tâches mentionnées, nous analysons les modes d'erreur et l'effet des caractéristiques des objets sur les performances afin de guider les efforts futurs vers cet objectif.