HyperAIHyperAI
il y a 11 jours

V-DETR : DETR avec une Encodage de Position Relative des Sommets pour la Détection d'Objets 3D

Yichao Shen, Zigang Geng, Yuhui Yuan, Yutong Lin, Ze Liu, Chunyu Wang, Han Hu, Nanning Zheng, Baining Guo
V-DETR : DETR avec une Encodage de Position Relative des Sommets pour la Détection d'Objets 3D
Résumé

Nous introduisons un détecteur d’objets 3D hautement performant pour les nuages de points, basé sur le cadre DETR. Les tentatives antérieures ont toutes abouti à des résultats sous-optimaux, car elles échouent à apprendre des biais inductifs précis à partir de la taille limitée des données d’entraînement. En particulier, les requêtes ont tendance à s’attacher à des points éloignés des objets cibles, violant ainsi le principe de localité en détection d’objets. Pour surmonter cette limitation, nous proposons une nouvelle méthode d’encodage de position relative 3D (3DV-RPE), qui calcule l’encodage de position pour chaque point en fonction de sa position relative par rapport aux boîtes 3D prédites par les requêtes à chaque couche du décodeur. Cette approche fournit ainsi des informations claires pour guider le modèle à se concentrer sur les points proches des objets, conformément au principe de localité. En outre, nous améliorons de manière systématique le pipeline à partir de plusieurs angles, notamment par une normalisation des données fondée sur notre compréhension de la tâche. Nos résultats sont exceptionnels sur le défi ScanNetV2, avec une amélioration significative par rapport à 3DETR précédent, passant de 65,0 %/47,0 % à 77,8 %/66,0 % en $\rm{AP}{25}$/$\rm{AP}{50}$, respectivement. En outre, notre méthode établit un nouveau record sur les jeux de données ScanNetV2 et SUN RGB-D. Le code source sera publié à l’adresse http://github.com/yichaoshen-MS/V-DETR.

V-DETR : DETR avec une Encodage de Position Relative des Sommets pour la Détection d'Objets 3D | Articles de recherche récents | HyperAI