STream3R : Reconstruction 3D séquentielle évolutif avec transformateur causal

Nous présentons STream3R, une nouvelle approche pour la reconstruction 3D qui reformule la prédiction de pointmap comme un problème de modèle Transformer à décodeur uniquement. Les méthodes actuelles les plus avancées pour la reconstruction multi-vue reposent soit sur une optimisation globale coûteuse, soit sur des mécanismes de mémoire simplistes qui ne se généralisent pas bien avec la longueur de la séquence. À l’inverse, STream3R introduit un cadre en flux (streaming) qui traite efficacement des séquences d’images en utilisant une attention causale, s’inspirant des progrès réalisés dans le domaine des modèles de langage modernes. En apprenant des priori géométriques à partir de grands jeux de données 3D, STream3R se généralise efficacement à des scénarios variés et complexes, y compris dans des scènes dynamiques où les méthodes traditionnelles échouent fréquemment. Des expériences étendues montrent que notre méthode surpasse de manière cohérente les approches antérieures sur les benchmarks de scènes statiques et dynamiques. En outre, STream3R est intrinsèquement compatible avec l’infrastructure d’entraînement inspirée des LLM (Large Language Models), permettant un pré-entraînement efficace à grande échelle et un ajustement fin pour diverses tâches 3D en amont. Nos résultats mettent en évidence le potentiel des modèles Transformer à attention causale pour la perception 3D en temps réel, ouvrant la voie à une compréhension 3D en temps réel dans des environnements en flux continu. Pour plus de détails, rendez-vous sur notre page de projet : https://nirvanalan.github.io/projects/stream3r.