Convolution 2.5D malléable : apprentissage des champs réceptifs selon l'axe de profondeur pour l'analyse de scènes RGB-D

Les données de profondeur fournissent des informations géométriques pouvant contribuer à des progrès dans les tâches de segmentation sémantique RGB-D. Plusieurs travaux récents proposent des opérateurs de convolution RGB-D qui construisent des champs réceptifs le long de l'axe de profondeur afin de modéliser les relations de voisinage en 3D entre les pixels. Toutefois, ces méthodes définissent a priori les champs réceptifs de profondeur à l’aide de hyperparamètres, ce qui les rend sensibles au choix de ces paramètres. Dans cet article, nous proposons un nouvel opérateur appelé convolution 2.5D malléable, capable d’apprendre automatiquement le champ réceptif le long de l’axe de profondeur. Une convolution 2.5D malléable utilise une ou plusieurs noyaux de convolution 2D. Notre méthode attribue chaque pixel à l’un des noyaux ou à aucun d’eux, en fonction des différences de profondeur relatives entre les pixels, et le processus d’attribution est formulé de manière différentiable, permettant ainsi son apprentissage par descente de gradient. L’opérateur proposé fonctionne sur des cartes de caractéristiques 2D standards et peut être intégré de manière transparente dans des réseaux CNN pré-entraînés. Nous menons des expériences approfondies sur deux jeux de données exigeants pour la segmentation sémantique RGB-D : NYUDv2 et Cityscapes, afin de valider l’efficacité et la capacité de généralisation de notre méthode.