HyperAIHyperAI
il y a 11 jours

FreDSNet : segmentation sémantique et estimation de profondeur monoculaire conjointes à l’aide de convolution rapide par transformée de Fourier

Bruno Berenguel-Baeta, Jesus Bermudez-Cameo, Jose J. Guerrero
FreDSNet : segmentation sémantique et estimation de profondeur monoculaire conjointes à l’aide de convolution rapide par transformée de Fourier
Résumé

Dans ce travail, nous présentons FreDSNet, une solution basée sur l'apprentissage profond permettant d'obtenir une compréhension sémantique en 3D des environnements intérieurs à partir d'une seule image panoramique. Les images omnidirectionnelles offrent des avantages spécifiques aux tâches de compréhension de scène grâce à l'information contextuelle complète à 360 degrés qu'elles apportent sur l'environnement entier. Toutefois, les caractéristiques intrinsèques des images omnidirectionnelles introduisent des difficultés supplémentaires pour une détection précise des objets, une segmentation efficace ou une estimation de profondeur de qualité. Pour surmonter ces défis, nous exploitons des convolutions dans le domaine fréquentiel, ce qui permet d’élargir le champ réceptif de chaque couche convolutive. Ces convolutions permettent de tirer parti de l’information contextuelle globale contenue dans les images omnidirectionnelles. FreDSNet est le premier réseau à fournir simultanément une estimation monoscopique de profondeur et une segmentation sémantique à partir d’une seule image panoramique, en exploitant des convolutions rapides par transformée de Fourier. Nos expériences montrent que FreDSNet atteint des performances comparables à celles des méthodes de pointe spécifiques pour la segmentation sémantique et l’estimation de profondeur. Le code de FreDSNet est disponible publiquement à l’adresse suivante : https://github.com/Sbrunoberenguel/FreDSNet

FreDSNet : segmentation sémantique et estimation de profondeur monoculaire conjointes à l’aide de convolution rapide par transformée de Fourier | Articles de recherche récents | HyperAI