il y a 14 heures

iLRM : un modèle itératif de reconstruction 3D de grande taille

Gyeongjin Kang; Seungtae Nam; Xiangyu Sun; Sameh Khamis; Abdelrahman Mohamed; Eunbyung Park

Résumé

La modélisation 3D en mode feed-forward s'est imposée comme une approche prometteuse pour une reconstruction 3D rapide et de haute qualité. En particulier, la génération directe de représentations 3D explicites, telles que le 3D Gaussian splatting, a suscité un intérêt croissant en raison de son rendu rapide et de haute qualité, ainsi que de ses nombreuses applications. Toutefois, de nombreuses méthodes de pointe, principalement fondées sur des architectures de type transformer, souffrent de graves problèmes d’évolutivité, car elles reposent sur une attention complète entre les tokens d’image provenant de plusieurs vues d’entrée, entraînant des coûts computationnels prohibitifs à mesure que le nombre de vues ou la résolution des images augmente. Pour répondre à ce défi et permettre une reconstruction 3D feed-forward à la fois évolutif et efficace, nous proposons un modèle itératif de reconstruction 3D de grande taille, nommé iLRM (iterative Large 3D Reconstruction Model), qui génère des représentations 3D basées sur des Gaussiennes par un mécanisme d’affinement itératif, guidé par trois principes fondamentaux : (1) découpler la représentation de la scène des images d’entrée afin de permettre des représentations 3D compactes ; (2) décomposer les interactions multi-vues à attention complète en un schéma d’attention en deux étapes, réduisant ainsi les coûts computationnels ; et (3) injecter des informations à haute résolution à chaque couche pour atteindre une reconstruction de haute fidélité. Les résultats expérimentaux sur des jeux de données largement utilisés, tels que RE10K et DL3DV, montrent que iLRM surpasser les méthodes existantes tant en qualité de reconstruction qu’en vitesse. Notamment, iLRM présente une évolutivité supérieure, offrant une qualité de reconstruction nettement plus élevée pour un coût computationnel comparable, en exploitant efficacement un plus grand nombre de vues d’entrée.