SA-BEV : Génération d'une caractéristique Bird's-Eye-View consciente du sens pour la détection 3D d'objets multi-vues

Récemment, la perception Bird’s-Eye-View (BEV) basée uniquement sur des caméras a offert une solution viable pour la conduite autonome à faible coût. Toutefois, les détecteurs 3D multi-vues basés sur la BEV existants transforment généralement toutes les caractéristiques d’image en caractéristiques BEV, sans tenir compte du problème selon lequel une proportion importante d’informations de fond peut masquer les informations relatives aux objets. Dans cet article, nous proposons SA-BEVPool, un pooling BEV conscient des sémantiques, capable de filtrer les informations de fond en se basant sur la segmentation sémantique des caractéristiques d’image, et de transformer ces dernières en caractéristiques BEV conscientes du sens. Par conséquent, nous introduisons BEV-Paste, une stratégie efficace d’augmentation de données qui s’aligne étroitement avec les caractéristiques BEV conscientes du sens. En outre, nous concevons une tête Multi-Échelle Cross-Tâche (MSCT), qui combine des informations spécifiques à chaque tâche et des informations partagées entre tâches afin de prédire de manière plus précise la distribution de profondeur et la segmentation sémantique, améliorant ainsi davantage la qualité des caractéristiques BEV conscientes du sens. Enfin, nous intégrons ces modules dans un nouveau cadre de détection d’objets 3D multi-vues, nommé SA-BEV. Les expériences sur le jeu de données nuScenes montrent que SA-BEV atteint des performances de pointe. Le code est disponible à l’adresse suivante : https://github.com/mengtan00/SA-BEV.git.