Détection d'objets et estimation de la vue en few-shot pour des objets dans leur environnement naturel

La détection d'objets et l'estimation de leurs points de vue dans les images sont des tâches clés pour la compréhension des scènes en 3D. Les approches récentes ont obtenu d'excellents résultats sur des benchmarks très importants pour la détection d'objets et l'estimation du point de vue. Cependant, les performances restent encore en retard pour les nouvelles catégories d'objets avec peu d'échantillons. Dans cet article, nous abordons les problèmes de détection d'objets à partir de quelques exemples (few-shot) et d'estimation du point de vue à partir de quelques exemples (few-shot). Nous montrons, pour ces deux tâches, les avantages de guider la prédiction du réseau avec des caractéristiques représentatives de classe extraites à partir de données dans différentes modalités : des patchs d'images pour la détection d'objets, et des modèles 3D alignés pour l'estimation du point de vue. Malgré sa simplicité, notre méthode surpasse largement les méthodes de l'état de l'art sur une gamme de jeux de données, y compris PASCAL et COCO pour la détection d'objets à partir de quelques exemples (few-shot), et Pascal3D+ et ObjectNet3D pour l'estimation du point de vue à partir de quelques exemples (few-shot). De plus, lorsque le modèle 3D n'est pas disponible, nous introduisons une méthode simple d'estimation du point de vue indifférenciée par catégorie en exploitant les similarités géométriques et l'étiquetage cohérent des poses entre différentes classes. Bien que cela réduise modérément les performances, cette approche obtient toujours de meilleurs résultats que les méthodes précédentes dans ce contexte. Enfin, pour la première fois, nous abordons la combinaison des deux tâches à partir de quelques exemples (few-shot) sur trois benchmarks difficiles pour l'estimation du point de vue dans le monde réel : ObjectNet3D, Pascal3D+ et Pix3D, montrant des résultats très prometteurs.