HyperAIHyperAI
il y a 17 jours

Analyse efficace de scènes RGB-D multi-tâches pour des environnements intérieurs

Daniel Seichter, Söhnke Benedikt Fischedick, Mona Köhler, Horst-Michael Groß
Analyse efficace de scènes RGB-D multi-tâches pour des environnements intérieurs
Résumé

La compréhension sémantique des scènes est essentielle pour les agents mobiles opérant dans divers environnements. Bien que la segmentation sémantique fournisse déjà une grande quantité d'informations, elle manque de détails concernant les objets individuels ainsi que du contexte global de la scène, des éléments pourtant nécessaires à de nombreuses applications réelles. Or, résoudre ces différentes tâches séparément est coûteux et ne peut être réalisé en temps réel compte tenu des contraintes limitées en puissance de calcul et en autonomie énergétique sur une plateforme mobile. Dans cet article, nous proposons une approche efficace multi-tâches pour l’analyse de scènes RGB-D (EMSANet), qui effectue simultanément la segmentation sémantique et instance (segmentation panoptique), l’estimation de l’orientation des instances et la classification de scène. Nous démontrons que toutes ces tâches peuvent être réalisées en temps réel sur une plateforme mobile à l’aide d’un seul réseau neuronal, sans compromettre la performance — au contraire, chaque tâche bénéficie mutuellement des autres. Afin d’évaluer notre approche multi-tâches, nous étendons les annotations des jeux de données intérieurs RGB-D courants NYUv2 et SUNRGB-D afin d’inclure la segmentation d’instances et l’estimation d’orientation. À notre connaissance, nous sommes les premiers à présenter des résultats dans un cadre multi-tâches aussi complet pour l’analyse de scènes intérieures sur NYUv2 et SUNRGB-D.

Analyse efficace de scènes RGB-D multi-tâches pour des environnements intérieurs | Articles de recherche récents | HyperAI