Apprentissage hiérarchique du contexte temporel pour l'achèvement sémantique de scènes basé sur caméra

L'achèvement sémantique de scènes 3D basé sur caméra (SSC) est crucial pour prédire des dispositions 3D complexes à partir d'observations d'images 2D limitées. Les solutions actuelles principales utilisent généralement l'information temporelle en empilant approximativement les cadres historiques pour compléter le cadre actuel, une telle modélisation temporelle simpliste diminue inévitablement les indices valides et augmente la difficulté d'apprentissage. Pour résoudre ce problème, nous présentons HTCL, un nouveau paradigme d'apprentissage du contexte temporel hiérarchique visant à améliorer l'achèvement sémantique de scènes basé sur caméra. L'innovation principale de cette étude réside dans la décomposition de l'apprentissage du contexte temporel en deux étapes hiérarchiques : (a) mesure d'affinité inter-cadres et (b) raffinement dynamique basé sur l'affinité. Premièrement, pour isoler le contexte pertinent critique de l'information redondante, nous introduisons l'affinité de motifs avec une isolation sensible à l'échelle et plusieurs apprenants indépendants pour une modélisation fine de la correspondance contextuelle. Ensuite, pour compenser dynamiquement les observations incomplètes, nous affinons adaptivement les emplacements d'échantillonnage des caractéristiques en fonction des emplacements initialement identifiés comme ayant une forte affinité et leurs régions pertinentes voisines. Notre méthode se classe première au benchmark SemanticKITTI et dépasse même les méthodes basées sur LiDAR en termes de mIoU sur le benchmark OpenOccupancy. Notre code est disponible sur https://github.com/Arlo0o/HTCL.