HyperAIHyperAI
il y a 11 jours

Réseau Haut-Bas : Fusion de contexte multi-échelle pour la complétion sémantique 3D de scène

{Hongbo Zhang, Feng Wen, Wanlong Li, Yong liu, Chujuan Zhang, Tianxin Huang, Xuemeng Yang, Hao Zou}
Résumé

Un algorithme efficace de perception de scènes 3D constitue un composant essentiel pour les systèmes de conduite autonome et de robotique. Dans cet article, nous nous concentrons sur la complétion sémantique de scène, une tâche consistant à estimer conjointement l'occupation volumétrique et les étiquettes sémantiques des objets. Étant donné que les données du monde réel sont souvent rares et partiellement occluées, cette tâche s'avère extrêmement difficile. Nous proposons un cadre novateur, nommé réseau Up-to-Down (UDNet), basé sur une architecture encodeur-décodeur adaptée aux grilles de voxels, afin d’atteindre une complétion sémantique à grande échelle. Le bloc innovant Up-to-Down permet une agrégation efficace d’informations contextuelles multi-échelles, améliorant ainsi la cohérence des étiquetages. Par ailleurs, le module d’agrégation pyramidale à trous (atrous spatial pyramid pooling) est utilisé pour étendre le champ réceptif tout en préservant les détails d’information géométrique. En outre, le mécanisme de fusion multi-échelle proposé permet une agrégation efficace des informations globales du fond, contribuant ainsi à améliorer la précision de la complétion sémantique. Enfin, pour répondre aux exigences variées des différentes tâches, notre UDNet permet également une complétion sémantique multi-résolution, offrant une exécution plus rapide mais de précision moindre. Des expériences détaillées sur le benchmark de complétion sémantique de scène SemanticKITTI montrent que notre cadre proposé dépasse de manière significative les méthodes de pointe, tout en assurant une vitesse d’inférence en temps réel, en n’utilisant que des grilles de voxels comme entrée.

Réseau Haut-Bas : Fusion de contexte multi-échelle pour la complétion sémantique 3D de scène | Articles de recherche récents | HyperAI