UniK3D : estimation universelle monocabine 3D à partir d'une caméra

L'estimation 3D monoculaire est cruciale pour la perception visuelle. Toutefois, les méthodes actuelles présentent des limites importantes en s'appuyant sur des hypothèses simplifiées, telles que les modèles de caméra à lentille mince ou des images rectifiées. Ces contraintes limitent sévèrement leur généralisation, entraînant de mauvaises performances dans des scénarios réels impliquant des images à grand champ (fisheye) ou panoramiques, ainsi qu'une perte substantielle de contexte. Pour remédier à ce problème, nous proposons UniK3D, la première méthode généralisable pour l'estimation 3D monoculaire capable de modéliser n'importe quel type de caméra. Notre approche introduit une représentation 3D sphérique, permettant une meilleure séparation entre la géométrie de la caméra et celle de la scène, et permettant une reconstruction 3D métrique précise pour des modèles de caméra non contraints. Notre module caméra repose sur une nouvelle représentation indépendante du modèle du faisceau de rayons, obtenue par superposition apprise de harmoniques sphériques. Nous introduisons également une perte angulaire, combinée à la conception du module caméra, qui empêche la contraction des sorties 3D pour les caméras à large champ. Une évaluation zéro-shot exhaustive sur 13 jeux de données diversifiés démontre les performances de pointe d'UniK3D sur les métriques 3D, de profondeur et de caméra, avec des gains significatifs dans des configurations exigeantes telles que les champs de vue étendus et les images panoramiques, tout en maintenant une précision optimale dans les domaines classiques à caméra à lentille mince à champ étroit. Le code et les modèles sont disponibles sur github.com/lpiccinelli-eth/unik3d.