Adaptation de domaine non supervisée sans source et uniquement image pour l'estimation de pose d'objets au niveau des catégories

Nous considérons le problème d’estimation de pose au niveau des catégories, sans accès aux données du domaine source ni aux annotations 3D, à partir uniquement d’images RGB vers un domaine cible. La collecte et l’annotation de données 3D réelles ainsi que des images correspondantes constituent un processus fastidieux, coûteux, mais inévitable, car même les méthodes d’adaptation de domaine de pose 3D nécessitent des données 3D dans le domaine cible. Nous introduisons 3DUDA, une méthode capable d’adapter un modèle à un domaine cible perturbé sans accès à des données 3D ni à des données de profondeur. Notre observation clé repose sur le constat que certaines sous-parties d’objets restent stables dans des scénarios hors domaine (OOD), ce qui permet d’exploiter stratégiquement ces composants invariants pour une mise à jour efficace du modèle. Nous représentons les catégories d’objets par des maillages cuboïdaux simples, et utilisons un modèle génératif des activations de caractéristiques neuronales, appris à chaque sommet du maillage via un rendu différentiable. Nous nous concentrons sur des caractéristiques locales robustes associées à chaque sommet du maillage, et les mettons à jour itérativement en fonction de leur proximité avec les caractéristiques correspondantes dans le domaine cible, même lorsque la pose globale n’est pas correcte. Notre modèle est ensuite entraîné selon une approche EM, en alternant entre la mise à jour des caractéristiques des sommets et celle du extracteur de caractéristiques. Nous montrons que notre méthode simule une phase de fine-tuning sur un ensemble de données pseudo-étiquetées globales sous des hypothèses modérées, convergeant asymptotiquement vers le domaine cible. Grâce à une validation expérimentale étendue, incluant un cadre extrême d’adaptation de domaine non supervisée (UDA) combinant des perturbations réelles, du bruit synthétique et des occlusions, nous démontrons la robustesse de notre approche simple face au décalage de domaine, ainsi que son efficacité significative pour améliorer la précision de l’estimation de pose.