EPMF : Fusion multi-capteurs consciente de la perception efficace pour la segmentation sémantique 3D

Nous étudions la fusion multi-capteurs pour la segmentation sémantique 3D, une tâche essentielle à la compréhension de scènes dans de nombreuses applications, telles que la conduite autonome et la robotique. Toutefois, les méthodes existantes basées sur la fusion ne parviennent pas toujours à atteindre des performances prometteuses en raison des différences considérables entre les deux modalités. Dans ce travail, nous proposons un schéma de fusion collaborative appelé fusion multi-capteurs consciente de la perception (PMF), visant à exploiter efficacement les informations perceptuelles provenant de deux modalités : les informations d’apparence issues des images RGB et les informations spatiales et profondes issues des nuages de points. Pour ce faire, nous projetons les nuages de points dans le repère caméra à l’aide d’une projection perspective, et traitons les entrées provenant du LiDAR et des caméras dans l’espace 2D tout en préservant l’intégrité des informations des images RGB. Ensuite, nous proposons un réseau à deux branches pour extraire séparément les caractéristiques des deux modalités. Ces caractéristiques sont ensuite fusionnées à l’aide de modules de fusion basés sur des résidus. Par ailleurs, nous introduisons des pertes supplémentaires conscientes de la perception afin de mesurer les différences perceptuelles entre les deux modalités. Enfin, nous proposons une version améliorée de PMF, appelée EPMF, plus efficace et performante, en optimisant le prétraitement des données et l’architecture du réseau sous projection perspective. Plus précisément, nous proposons une alignement inter-modale et une découpe adaptative afin d’obtenir des entrées serrées et de réduire les coûts computationnels inutiles. Nous explorons également des modules contextuels plus efficaces sous projection perspective, et intégrons les caractéristiques du LiDAR dans le flux de traitement des images caméra afin d’améliorer les performances du réseau à deux branches. Des expériences étendues sur des jeux de données standard montrent clairement l’avantage de notre méthode. Par exemple, sur l’ensemble de test nuScenes, notre EPMF dépasse la méthode de l’état de l’art, à savoir RangeFormer, de 0,9 % en mIoU. Le code source de notre travail est disponible à l’adresse suivante : https://github.com/ICEORY/PMF.