HyperAI

PE3R : Un Cadre Pour Une Reconstruction 3D Efficace

1. Introduction au tutoriel

Étoiles GitHub

PE3R (Perception-Efficient 3D Reconstruction) est un framework open source innovant de reconstruction 3D, lancé par le laboratoire xML de l'Université nationale de Singapour (NUS) le 10 mars 2025. Il permet une modélisation de scène efficace et intelligente grâce à l'intégration d'une technologie de perception multimodale. Ce projet s'appuie sur des résultats de recherche de pointe en vision par ordinateur. Il suffit d'entrer des images 2D pour reconstruire rapidement une scène 3D. Sur la carte graphique RTX 3090, le temps de reconstruction moyen d'une scène n'est que de 2,3 minutes, soit plus de 65% de plus que les méthodes traditionnelles.

En termes de mise en œuvre technique, PE3R adopte une architecture de conception modulaire :

  • Son moteur de reconstruction principal est basé sur la technologie DUSt3R/MASt3R, permettant une conversion efficace des images 2D en nuages de points 3D.
  • Le module de perception visuelle intègre les modèles de segmentation de la série SAM/SAM2 pour garantir une reconnaissance et une segmentation précises des objets de la scène, tout en prenant en charge un déploiement efficace sur les terminaux mobiles grâce à la version optimisée de MobileSAM.
  • La couche de compréhension sémantique utilise le modèle de langage visuel SigLIP, qui donne au système des capacités de compréhension inter-scènes à échantillon zéro, et les utilisateurs peuvent interroger directement des objets spécifiques via des commandes en langage naturel.

L'innovation la plus révolutionnaire de ce projet réside dans son algorithme d'optimisation à deux niveaux :

  • Dans la première étape, l'algorithme MST (arbre couvrant minimal) est utilisé pour un alignement approximatif rapide.
  • Dans la deuxième étape, une reconstruction raffinée est obtenue en introduisant l'ajustement de faisceau sémantiquement contraint.

Cette conception garantit non seulement la qualité de la reconstruction, mais contrôle également l'utilisation de la mémoire vidéo dans les 6,2 Go, permettant au système de fonctionner sans problème sur des GPU grand public.PE3R : Reconstruction 3D efficace en termes de perception".

Les ressources informatiques utilisées dans ce tutoriel sont des RTX 4090.

2. Exemples de projets

Rendu
 Construire une scène 3D

3. Étapes de l'opération

 1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à la page Web

 2. Étapes d'utilisation

Une fois que vous entrez sur le site Web, vous pouvez commencer à utiliser

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

Note:

  • Téléchargement d'image :
    • Veuillez télécharger 2 à 8 images dans autant de directions et aussi clairement que possible.
    • Si l'effet n'est pas satisfaisant, veuillez augmenter le nombre d'images téléchargées ou améliorer la qualité des images.
  • Seuil : Il est crucial de définir correctement le seuil : un seuil trop élevé peut entraîner des détections manquées, tandis qu'un seuil trop bas peut entraîner de fausses détections. Il doit donc être ajusté en fonction de la situation réelle.
Utiliser le diagramme

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓ 

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{hu2025pe3r,
  title={PE3R: Perception-Efficient 3D Reconstruction},
  author={Hu, Jie and Wang, Shizun and Wang, Xinchao},
  journal={arXiv preprint arXiv:2503.07507},
  year={2025}
}