HyperAIHyperAI
il y a 2 mois

Open-YOLO 3D : Vers une segmentation d'instances 3D rapide et précise avec vocabulaire ouvert

Boudjoghra, Mohamed El Amine ; Dai, Angela ; Lahoud, Jean ; Cholakkal, Hisham ; Anwer, Rao Muhammad ; Khan, Salman ; Khan, Fahad Shahbaz
Open-YOLO 3D : Vers une segmentation d'instances 3D rapide et précise avec vocabulaire ouvert
Résumé

Les travaux récents sur la segmentation d'instances 3D à vocabulaire ouvert montrent un fort potentiel, mais au prix d'une vitesse de déduction lente et de besoins en calcul élevés. Ce coût de calcul élevé est généralement attribué à leur forte dépendance aux caractéristiques 3D des clips, qui nécessitent des modèles fondamentaux 2D coûteux en termes de calcul, tels que Segment Anything (SAM) et CLIP, pour l'agrégation multivue en 3D. Par conséquent, cela entrave leur applicabilité dans de nombreuses applications du monde réel qui exigent à la fois des prédictions rapides et précises. À cet égard, nous proposons une approche rapide et précise de segmentation d'instances 3D à vocabulaire ouvert, nommée Open-YOLO 3D, qui utilise efficacement uniquement la détection d'objets 2D à partir d'images RGB multivues pour la segmentation d'instances 3D à vocabulaire ouvert. Nous abordons cette tâche en générant des masques 3D indépendants de la classe pour les objets dans la scène et en les associant à des invites textuelles. Nous constatons que la projection des instances de nuages de points 3D indépendantes de la classe contient déjà des informations d'instance ; ainsi, l'utilisation de SAM pourrait entraîner une redondance inutile qui augmente le temps de déduction sans nécessité. Nous trouvons empiriquement qu'une meilleure performance dans l'appariement des invites textuelles aux masques 3D peut être obtenue plus rapidement avec un détecteur d'objets 2D. Nous validons notre Open-YOLO 3D sur deux benchmarks, ScanNet200 et Replica, dans deux scénarios : (i) avec des masques vérités terrain, où des étiquettes sont requises pour les propositions d'objets donnés, et (ii) avec des propositions 3D indépendantes de la classe générées par un réseau de propositions 3D. Notre Open-YOLO 3D atteint des performances state-of-the-art sur les deux jeux de données tout en obtenant jusqu'à environ 16 fois plus de rapidité par rapport à la meilleure méthode existante dans la littérature. Sur l'ensemble de validation ScanNet200, notre Open-YOLO 3D obtient une précision moyenne (mAP) de 24,7 % tout en traitant chaque scène en 22 secondes. Le code source et le modèle sont disponibles sur github.com/aminebdj/OpenYOLO3D.

Open-YOLO 3D : Vers une segmentation d'instances 3D rapide et précise avec vocabulaire ouvert | Articles de recherche récents | HyperAI