HyperAI
il y a 12 jours

π³ : Apprentissage de géométrie visuelle équivariant aux permutations, évolutif à grande échelle

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
π³ : Apprentissage de géométrie visuelle équivariant aux permutations, évolutif à grande échelle
Résumé

Nous présentons pi³, un réseau neuronal à propagation avant qui offre une nouvelle approche pour la reconstruction de géométrie visuelle, rompant avec la dépendance à une vue de référence conventionnelle et fixe. Les méthodes précédentes s'appuient souvent sur un point de vue désigné, un biais inductif qui peut entraîner des instabilités et des échecs si la référence est sous-optimale. En revanche, pi³ utilise une architecture entièrement équivariante par permutation pour prédire des poses caméra affines invariantes et des cartes de points locaux invariantes à l'échelle, sans aucune trame de référence. Cette conception rend notre modèle intrinsèquement robuste à l'ordre des entrées et hautement évolutif. Ces avantages permettent à notre approche simple et sans biais d'atteindre des performances de pointe sur une large gamme de tâches, notamment l'estimation de pose caméra, l'estimation de profondeur mono/vidéo et la reconstruction de cartes de points denses. Le code source et les modèles sont disponibles au public.