il y a 6 mois

Résumé

La perception et le raisonnement basés sur la vision sont essentiels à la compréhension des scènes dans tout système autonome. Les images RGB et profondeur sont couramment utilisées pour capturer à la fois les caractéristiques sémantiques et géométriques de l’environnement. Le développement de méthodes fiables pour interpréter ces données est crucial pour les applications réelles, où les mesures bruitées sont souvent inévitables. Dans ce travail, nous introduisons un cadre fondé sur la diffusion pour résoudre le problème de la segmentation sémantique RGB-D. De plus, nous démontrons qu’en utilisant un Transformer à attention déformable comme encodeur pour extraire des caractéristiques à partir des images de profondeur, il est possible de capturer efficacement les caractéristiques des régions invalides présentes dans les mesures de profondeur. Notre cadre génératif présente une capacité supérieure à modéliser la distribution sous-jacente des images RGB-D, offrant des performances robustes dans des scénarios exigeants, avec un temps d’entraînement significativement réduit par rapport aux méthodes discriminatives. Les résultats expérimentaux montrent que notre approche atteint des performances de pointe (State-of-the-Art) sur les jeux de données NYUv2 et SUN-RGBD, tant dans le cas général que particulièrement sur les images les plus difficiles. La page de projet sera disponible à l’adresse suivante : https://diffusionmms.github.io/

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Multimodal

Vision Par Ordinateur

Tâche

Minh Bui Kostas Alexis

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Multimodal

Vision Par Ordinateur

Tâche

Minh Bui Kostas Alexis

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Segmentation sémantique RGB-D basée sur la diffusion avec transformateur à attention déformable

Minh Bui Kostas Alexis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Segmentation sémantique RGB-D basée sur la diffusion avec transformateur à attention déformable

Minh Bui Kostas Alexis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Segmentation sémantique RGB-D basée sur la diffusion avec transformateur à attention déformable

Minh Bui Kostas Alexis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters