Apprentissage de convolutions guidées par la profondeur pour la détection d'objets 3D monoculaire

La détection d'objets 3D à partir d'une seule image sans LiDAR est une tâche complexe en raison du manque d'informations de profondeur précises. Les convolutions 2D conventionnelles ne sont pas adaptées à cette tâche car elles échouent à capturer les informations locales et d'échelle des objets, qui sont essentielles pour la détection d'objets 3D. Pour représenter mieux la structure 3D, les travaux antérieurs transforment généralement les cartes de profondeur estimées à partir d'images 2D en une représentation pseudo-LiDAR, puis appliquent des détecteurs d'objets basés sur des nuages de points 3D existants. Cependant, leurs résultats dépendent fortement de la précision des cartes de profondeur estimées, ce qui entraîne des performances sous-optimales.Dans cette étude, au lieu d'utiliser une représentation pseudo-LiDAR, nous améliorons les convolutions 2D fondamentales en proposant un nouveau réseau de convolution locale (LCN) appelé Depth-guided Dynamic-Depthwise-Dilated LCN (D$^4$LCN). Dans ce réseau, les filtres et leurs champs récepteurs peuvent être appris automatiquement à partir des cartes de profondeur basées sur les images, permettant ainsi à différents pixels de différentes images d'avoir des filtres différents. Le D$^4$LCN surmonte la limitation des convolutions 2D conventionnelles et réduit l'écart entre la représentation par image et la représentation par nuage de points 3D. Des expériences approfondies montrent que le D$^4$LCN surpass largement les travaux existants avec des marges importantes. Par exemple, l'amélioration relative du D$^4$LCN par rapport à l'état de l'art sur KITTI est de 9,1 % dans le cadre modéré. Le code est disponible sur https://github.com/dingmyu/D4LCN.