Contexte et Géométrie Conscients : Transformateur Voxel pour le Complétion Sémantique de Scène

La complétion sémantique de scènes basée sur la vision (SSC) a suscité beaucoup d'attention en raison de ses nombreuses applications dans diverses tâches de perception 3D. Les approches existantes qui transforment des données éparse en données dense utilisent généralement des requêtes indépendantes du contexte partagées entre différentes images d'entrée, ce qui ne permet pas de saisir les différences entre elles car les régions focales des entrées varient et cela peut entraîner une agrégation non dirigée des caractéristiques par l'attention croisée. De plus, l'absence d'informations de profondeur peut conduire à des points projetés sur le plan de l'image partageant la même position 2D ou des points d'échantillonnage similaires dans la carte de caractéristiques, ce qui entraîne une ambiguïté de profondeur. Dans cet article, nous présentons un nouveau voxel transformer sensible au contexte et à la géométrie. Il utilise un générateur de requêtes sensible au contexte pour initialiser des requêtes dépendantes du contexte adaptées à chaque image d'entrée, capturant efficacement leurs caractéristiques uniques et agrégeant les informations dans la région d'intérêt. De plus, il étend l'attention croisée déformable du domaine 2D à l'espace pixel 3D, permettant ainsi de distinguer les points ayant des coordonnées d'image similaires en fonction de leurs coordonnées de profondeur. Sur la base de ce module, nous introduisons un réseau neuronal nommé CGFormer pour réaliser la complétion sémantique de scènes. Parallèlement, CGFormer exploite plusieurs représentations 3D (c'est-à-dire voxel et TPV) pour améliorer les capacités de représentation sémantique et géométrique du volume 3D transformé, tant du point de vue local que global. Les résultats expérimentaux montrent que CGFormer atteint des performances exceptionnelles sur les bancs d'essai SemanticKITTI et SSCBench-KITTI-360, avec un mIoU respectif de 16,87 et 20,05 ainsi qu'un IoU respectif de 45,99 et 48,07. Notamment, CGFormer surpass même les approches utilisant des images temporelles comme entrée ou des réseaux neuronaux beaucoup plus grands comme backbone d'image.