HyperAIHyperAI
il y a 16 jours

ShapeConv : Couche de convolution sensible à la forme pour la segmentation sémantique intérieure en RGB-D

Jinming Cao, Hanchao Leng, Dani Lischinski, Danny Cohen-Or, Changhe Tu, Yangyan Li
ShapeConv : Couche de convolution sensible à la forme pour la segmentation sémantique intérieure en RGB-D
Résumé

La segmentation sémantique RGB-D a attiré une attention croissante au cours des dernières années. Les méthodes existantes utilisent principalement des opérateurs de convolution homogènes pour traiter les caractéristiques RGB et profondeur, négligeant ainsi leurs différences intrinsèques. En réalité, les valeurs RGB captent les propriétés photométriques de l’apparence dans l’espace d’image projetée, tandis que les caractéristiques de profondeur codent à la fois la forme géométrique locale et sa position (base) dans un contexte plus large. Par rapport à la base, la forme est probablement plus intrinsèque et présente un lien plus fort avec la sémantique, et est donc plus cruciale pour la précision de la segmentation. Inspirés par cette observation, nous introduisons une couche de convolution sensible à la forme (ShapeConv) destinée au traitement des caractéristiques de profondeur, où ces dernières sont d’abord décomposées en une composante forme et une composante base. Deux poids apprenables sont ensuite introduits pour interagir indépendamment avec chacune de ces composantes, avant d’appliquer une convolution sur la combinaison répèsée de ces deux composantes. ShapeConv est indépendant du modèle et peut être facilement intégré à la plupart des réseaux de neurones convolutifs (CNN) afin de remplacer les couches de convolution classiques pour la segmentation sémantique. Des expériences étendues sur trois défis majeurs de segmentation sémantique RGB-D en intérieur — à savoir NYU-Dv2 (-13, -40), SUN RGB-D et SID — démontrent l’efficacité de ShapeConv lorsqu’il est appliqué sur cinq architectures populaires. En outre, les performances des CNN utilisant ShapeConv sont améliorées sans aucune augmentation de la charge computationnelle ou mémoire au moment de l’inférence. La raison en est que les poids appris pour équilibrer l’importance entre les composantes forme et base dans ShapeConv deviennent des constantes lors de l’inférence, et peuvent donc être fusionnés avec la convolution suivante, aboutissant à un réseau identique à celui comportant des couches de convolution classiques.

ShapeConv : Couche de convolution sensible à la forme pour la segmentation sémantique intérieure en RGB-D | Articles de recherche récents | HyperAI