MobilePose : Estimation en temps réel de la posture pour des objets inconnus avec une supervision faible sur la forme

Dans cet article, nous abordons le problème de la détection d’objets inédits à partir d’images RGB et de l’estimation de leur pose en 3D. Nous proposons deux réseaux conçus pour être compatibles avec les dispositifs mobiles : MobilePose-Base et MobilePose-Shape. Le premier est utilisé lorsque seule une supervision de pose est disponible, tandis que le second s’applique dans le cas où une supervision de forme est accessible, même faible. Nous réexaminons les caractéristiques de forme utilisées dans les méthodes antérieures, notamment la segmentation et la carte de coordonnées. Nous expliquons sous quelles conditions et pourquoi une supervision de forme au niveau des pixels peut améliorer l’estimation de la pose. En conséquence, nous intégrons une prédiction de forme en tant que couche intermédiaire dans MobilePose-Shape, permettant au réseau d’apprendre la pose à partir de la forme. Nos modèles sont entraînés sur un mélange de données réelles et synthétiques, avec une supervision de forme faible et bruitée. Ils sont extrêmement légers, permettant une exécution en temps réel sur les appareils mobiles modernes (par exemple, 36 FPS sur Galaxy S20). Par rapport aux solutions précédentes à une seule passe, notre méthode offre une précision supérieure tout en utilisant un modèle significativement plus petit (2 à 3 % seulement en taille de modèle ou en nombre de paramètres).