DFormer : Réflexion sur l'apprentissage des représentations RGBD pour la segmentation sémantique

Nous présentons DFormer, un nouveau cadre de préentraînement RGB-D pour apprendre des représentations transférables destinées aux tâches de segmentation RGB-D. DFormer comporte deux innovations clés : 1) Contrairement aux travaux précédents qui codent l'information RGB-D avec une tronçonneuse préentraînée sur les images RGB, nous préentrainons la tronçonneuse en utilisant des paires image-profondeur issues d'ImageNet-1K, ce qui confère à DFormer la capacité de coder des représentations RGB-D ; 2) DFormer est composé d'une séquence de blocs RGB-D, spécifiquement conçus pour encoder à la fois les informations RGB et profondeur grâce à un nouveau design de blocs de construction. DFormer évite le codage inadéquat des relations géométriques 3D dans les cartes de profondeur par des tronçonneuses préentraînées sur les images RGB, problème courant dans les méthodes existantes mais jusqu'à présent non résolu. Nous ajustons finement le DFormer préentraîné sur deux tâches populaires RGB-D, à savoir la segmentation sémantique RGB-D et la détection d'objets saillants RGB-D, en utilisant une tête décodeur légère. Les résultats expérimentaux montrent que notre DFormer atteint de nouvelles performances exceptionnelles sur ces deux tâches avec moins de la moitié du coût computationnel des meilleures méthodes actuelles sur deux jeux de données de segmentation sémantique RGB-D et cinq jeux de données de détection d'objets saillants RGB-D. Notre code est disponible à l'adresse suivante : https://github.com/VCIP-RGBD/DFormer.注释:- "Tronçonneuse" 是对“backbone”的一种形象化的翻译,但在科技文献中通常直接使用“tronc commun”或“réseau principal”。根据上下文,这里选择使用“tronc commun”以保持专业性。- “Blocs de construction” 在此上下文中指的是神经网络中的构建模块,可以翻译为“blocs neuronaux”或“modules”. 这里选择使用“blocs neuronaux”以保持专业性。修正后的版本:Nous présentons DFormer, un nouveau cadre de préentraînement RGB-D pour apprendre des représentations transférables destinées aux tâches de segmentation RGB-D. DFormer comporte deux innovations clés : 1) Contrairement aux travaux précédents qui codent l'information RGB-D avec un tronc commun préentraîné sur les images RGB, nous préentrainons le tronc commun en utilisant des paires image-profondeur issues d'ImageNet-1K, ce qui confère à DFormer la capacité de coder des représentations RGB-D ; 2) DFormer est composé d'une séquence de blocs neuronaux RGB-D, spécifiquement conçus pour encoder à la fois les informations RGB et profondeur grâce à un nouveau design de blocs. DFormer évite le codage inadéquat des relations géométriques 3D dans les cartes de profondeur par des troncs communs préentraînés sur les images RGB, problème courant dans les méthodes existantes mais jusqu'à présent non résolu. Nous ajustons finement le DFormer préentraîné sur deux tâches populaires RGB-D, à savoir la segmentation sémantique RGB-D et la détection d'objets saillants RGB-D, en utilisant une tête décodeur légère. Les résultats expérimentaux montrent que notre DFormer atteint de nouvelles performances exceptionnelles sur ces deux tâches avec moins de la moitié du coût computationnel des meilleures méthodes actuelles sur deux jeux de données de segmentation sémantique RGB-D et cinq jeux de données de détection d'objets saillants RGB-D. Notre code est disponible à l'adresse suivante : https://github.com/VCIP-RGBD/DFormer.