TR3D : Vers une détection d'objets 3D en temps réel dans les environnements intérieurs

Récemment, les convolution 3D creuses ont révolutionné la détection d'objets 3D. En offrant des performances comparables à celles des méthodes basées sur le vote, les réseaux de neurones convolutifs 3D (3D CNN) sont plus efficaces en mémoire et se généralisent mieux à des scènes de grande taille. Toutefois, des améliorations restent possibles. Adoptant une approche consciente et orientée pratique pour la résolution de problèmes, nous analysons les performances de ces méthodes et identifions précisément leurs faiblesses. En appliquant progressivement des modifications visant à corriger chacun de ces défauts, nous aboutissons à TR3D : un modèle de détection d'objets 3D entièrement convolutif, rapide, entraîné de manière end-to-end, et capable d'atteindre des résultats de pointe sur les benchmarks standards ScanNet v2, SUN RGB-D et S3DIS. Par ailleurs, afin d'exploiter pleinement les informations provenant à la fois des nuages de points et des images RGB, nous introduisons une fusion précoce des caractéristiques 2D et 3D. En intégrant ce module de fusion, nous rendons les méthodes classiques de détection 3D multimodales, et démontrons une amélioration remarquable des performances. Notre modèle enrichi par cette fusion précoce, que nous appelons TR3D+FF, surpasse les approches existantes sur le jeu de données SUN RGB-D. Globalement, outre leur précision, les modèles TR3D et TR3D+FF sont légers, efficaces en mémoire et rapides, marquant ainsi une nouvelle étape importante vers la détection d'objets 3D en temps réel. Le code source est disponible à l'adresse suivante : https://github.com/SamsungLabs/tr3d.