GenPose : Estimation de la pose d'objets au niveau des catégories par des modèles de diffusion

L'estimation de la pose d'objets joue un rôle crucial dans l'IA incarnée et la vision par ordinateur, permettant aux agents intelligents de comprendre et d'interagir avec leur environnement. Malgré la praticité de l'estimation de pose au niveau des catégories, les approches actuelles rencontrent des défis avec les nuages de points partiellement observés, connus sous le nom du problème multi-hypothèses. Dans cette étude, nous proposons une nouvelle solution en reformulant l'estimation de pose d'objets au niveau des catégories comme un modèle génératif conditionnel, s'éloignant ainsi de la régression point à point traditionnelle. En utilisant des modèles de diffusion basés sur le score, nous estimons les poses des objets en échantillonnant des candidats à partir du modèle de diffusion et en les agrégant à travers un processus en deux étapes : filtrage des valeurs aberrantes par estimation de vraisemblance, puis moyennage des candidats restants. Pour éviter le processus coûteux d'intégration lors de l'estimation de la vraisemblance, nous introduisons une méthode alternative qui entraîne un modèle basé sur l'énergie à partir du modèle original basé sur le score, permettant une estimation de vraisemblance bout à bout. Notre approche atteint des performances d'état de l'art sur le dataset REAL275, dépassant respectivement 50% et 60% sur les métriques strictes 5d2cm et 5d5cm. De plus, notre méthode montre une forte généralisation à de nouvelles catégories partageant des propriétés symétriques similaires sans ajustement fin et peut être facilement adaptée aux tâches de suivi de pose d'objets, produisant des résultats comparables aux meilleures méthodes actuelles.