HyperAIHyperAI
il y a 16 jours

Complétion sémantique 3D augmentée par données avec des priorités de segmentation 2D

Aloisio Dourado, Frederico Guth, Teofilo de Campos
Complétion sémantique 3D augmentée par données avec des priorités de segmentation 2D
Résumé

La complétion sémantique de scène (SSC, Semantic Scene Completion) est une tâche difficile en vision par ordinateur, aux nombreuses applications pratiques, allant de la robotique à l'informatique assistée. Son objectif consiste à estimer la géométrie 3D dans le champ de vue d'une scène ainsi que les étiquettes sémantiques des voxels, y compris les régions occluses. Dans ce travail, nous proposons SPAwN, un nouveau réseau neuronal profond 3D léger et multimodal, qui intègre de manière fluide des données structurelles provenant du composant profondeur des images RGB-D avec des priori sémantiques issus d’un réseau de segmentation 2D bimodal. Un défi crucial dans ce domaine réside dans le manque de jeux de données réels 3D entièrement étiquetés, suffisamment volumineux pour entraîner les réseaux profonds actuels, qui sont très gourmands en données. Dans les tâches de vision par ordinateur 2D, de nombreuses stratégies d’augmentation de données ont été proposées afin d’améliorer la généralisation des CNN. Toutefois, ces approches ne peuvent pas être directement appliquées aux entrées et sorties volumiques RGB-D des solutions SSC. Dans cet article, nous introduisons une stratégie d’augmentation de données 3D, applicable aux réseaux multimodaux de SSC. Nous validons nos contributions à l’aide d’une étude ablation complète et reproductible. Notre solution surpasse de manière cohérente les travaux antérieurs, tout en présentant un niveau de complexité similaire.