Distillation de caractéristiques 2D pour la segmentation sémantique 3D faiblement et semi-supervisée

Alors que les problèmes de perception 3D gagnent en popularité et que la nécessité de disposer de grands ensembles de données étiquetés pour la segmentation sémantique LiDAR augmente, de nouvelles méthodes émergent visant à réduire le besoin d'annotations denses en utilisant un entraînement faiblement supervisé. Cependant, ces méthodes continuent à montrer des estimations de contours faibles et des taux élevés de faux négatifs pour les petits objets et les régions éloignées peu denses. Nous soutenons que ces faiblesses peuvent être compensées en utilisant des images RGB qui fournissent une représentation plus dense de la scène. Nous proposons un réseau guidé par l'image (IGNet) qui repose sur l'idée d'extraire des informations de caractéristiques de haut niveau à partir d'un réseau de segmentation sémantique 2D formé synthétiquement et adapté au domaine. Nous utilisons également un schéma d'apprentissage contrastif unidirectionnel ainsi qu'une nouvelle stratégie de mélange appelée FOVMix, afin de combattre le décalage du champ horizontal entre les deux capteurs et d'améliorer les effets du guidage par l'image. IGNet obtient des résultats d'état de l'art pour la segmentation sémantique LiDAR faiblement supervisée sur ScribbleKITTI, avec jusqu'à 98 % de performance relative par rapport à l'entraînement pleinement supervisé, tout en ne nécessitant que 8 % des points étiquetés, sans introduire aucun fardeau supplémentaire en termes d'annotation ou de coût computationnel/mémoire lors de l'inférence. De plus, nous montrons que nos contributions sont également efficaces pour l'entraînement semi-supervisé, où IGNet revendique des résultats d'état de l'art sur ScribbleKITTI et SemanticKITTI.