HyperAIHyperAI
il y a 11 jours

PanoFormer : Transformer panoramique pour l'estimation de profondeur 360 intérieure

Zhijie Shen, Chunyu Lin, Kang Liao, Lang Nie, Zishuo Zheng, Yao Zhao
PanoFormer : Transformer panoramique pour l'estimation de profondeur 360 intérieure
Résumé

Les méthodes existantes d’estimation de profondeur panoramique basées sur les réseaux de neurones convolutifs (CNN) se concentrent principalement sur la suppression des distorsions panoramiques, mais peinent à percevoir efficacement les structures panoramiques en raison du champ réceptif fixe inhérent aux CNN. Ce papier propose un modèle appelé PanoFormer, une architecture transformer dédiée à l’estimation de profondeur dans les images panoramiques, intégrant des patchs tangents issus du domaine sphérique, des flux de tokens apprenables et des métriques spécifiques au panorama. Plus précisément, nous divisons les patchs sur le domaine tangent sphérique en tokens afin de réduire l’effet négatif des distorsions panoramiques. Étant donné que les structures géométriques sont essentielles à une estimation précise de la profondeur, nous redéfinissons un module d’attention auto-attention en introduisant un flux de tokens apprenable. En outre, en tenant compte des caractéristiques propres au domaine sphérique, nous proposons deux métriques spécifiques au panorama pour évaluer de manière complète les performances des modèles d’estimation de profondeur panoramique. Des expériences étendues montrent que notre approche surpasse significativement les méthodes de l’état de l’art (SOTA). En outre, la méthode proposée peut être efficacement étendue pour résoudre la segmentation sémantique panoramique, une tâche similaire de type pixel-to-pixel. Le code source sera rendu disponible.

PanoFormer : Transformer panoramique pour l'estimation de profondeur 360 intérieure | Articles de recherche récents | HyperAI