HyperAIHyperAI
il y a 3 mois

Segmentation sémantique RGB-D basée sur la diffusion avec transformateur à attention déformable

Minh Bui, Kostas Alexis
Segmentation sémantique RGB-D basée sur la diffusion avec transformateur à attention déformable
Résumé

La perception et le raisonnement basés sur la vision sont essentiels à la compréhension des scènes dans tout système autonome. Les images RGB et profondeur sont couramment utilisées pour capturer à la fois les caractéristiques sémantiques et géométriques de l’environnement. Le développement de méthodes fiables pour interpréter ces données est crucial pour les applications réelles, où les mesures bruitées sont souvent inévitables. Dans ce travail, nous introduisons un cadre fondé sur la diffusion pour résoudre le problème de la segmentation sémantique RGB-D. De plus, nous démontrons qu’en utilisant un Transformer à attention déformable comme encodeur pour extraire des caractéristiques à partir des images de profondeur, il est possible de capturer efficacement les caractéristiques des régions invalides présentes dans les mesures de profondeur. Notre cadre génératif présente une capacité supérieure à modéliser la distribution sous-jacente des images RGB-D, offrant des performances robustes dans des scénarios exigeants, avec un temps d’entraînement significativement réduit par rapport aux méthodes discriminatives. Les résultats expérimentaux montrent que notre approche atteint des performances de pointe (State-of-the-Art) sur les jeux de données NYUv2 et SUN-RGBD, tant dans le cas général que particulièrement sur les images les plus difficiles. La page de projet sera disponible à l’adresse suivante : https://diffusionmms.github.io/