HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation sémantique RGB-D basée sur la diffusion avec transformateur à attention déformable

Minh Bui Kostas Alexis

Résumé

La perception et le raisonnement basés sur la vision sont essentiels à la compréhension des scènes dans tout système autonome. Les images RGB et profondeur sont couramment utilisées pour capturer à la fois les caractéristiques sémantiques et géométriques de l’environnement. Le développement de méthodes fiables pour interpréter ces données est crucial pour les applications réelles, où les mesures bruitées sont souvent inévitables. Dans ce travail, nous introduisons un cadre fondé sur la diffusion pour résoudre le problème de la segmentation sémantique RGB-D. De plus, nous démontrons qu’en utilisant un Transformer à attention déformable comme encodeur pour extraire des caractéristiques à partir des images de profondeur, il est possible de capturer efficacement les caractéristiques des régions invalides présentes dans les mesures de profondeur. Notre cadre génératif présente une capacité supérieure à modéliser la distribution sous-jacente des images RGB-D, offrant des performances robustes dans des scénarios exigeants, avec un temps d’entraînement significativement réduit par rapport aux méthodes discriminatives. Les résultats expérimentaux montrent que notre approche atteint des performances de pointe (State-of-the-Art) sur les jeux de données NYUv2 et SUN-RGBD, tant dans le cas général que particulièrement sur les images les plus difficiles. La page de projet sera disponible à l’adresse suivante : https://diffusionmms.github.io/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Segmentation sémantique RGB-D basée sur la diffusion avec transformateur à attention déformable | Articles | HyperAI