HyperAIHyperAI
il y a 17 jours

SGAT4PASS : Transformer sensible à la géométrie sphérique pour la segmentation sémantique panoramique

Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li
SGAT4PASS : Transformer sensible à la géométrie sphérique pour la segmentation sémantique panoramique
Résumé

En tant que problème important et difficile en vision par ordinateur, la segmentation sémantique panoramique (PASS) permet une perception complète de la scène à partir d’un champ de vision ultra-large. En général, les méthodes courantes de PASS basées sur une image panoramique 2D se concentrent sur la correction des distorsions d’image, tout en négligeant les propriétés 3D des données initiales à $360^{\circ}$. Par conséquent, leur performance diminue fortement lorsqu’elles sont soumises à des images panoramiques perturbées en 3D. Pour améliorer la robustesse face à de telles perturbations 3D, nous proposons SGAT4PASS, un Transformer conscient de la géométrie sphérique pour la segmentation sémantique panoramique, intégrant explicitement des connaissances relatives à la géométrie sphérique 3D. Plus précisément, nous introduisons un cadre conscient de la géométrie sphérique pour la PASS, composé de trois modules : une projection d’image consciente de la géométrie sphérique, une embedding de patch déformable consciente de la géométrie sphérique, et une fonction de perte consciente du panorama, qui prennent respectivement en compte les images perturbées en 3D, ajoutent une contrainte consciente de la géométrie sphérique à l’embedding de patch déformable existant, et modélisent la densité des pixels des données initiales à $360^{\circ}$. Les résultats expérimentaux sur le jeu de données panoramiques Stanford2D3D montrent que SGAT4PASS améliore significativement la performance et la robustesse, avec une augmentation d’environ 2 % du mIoU, et une amélioration d’un ordre de grandeur de la stabilité de la performance en cas de petites perturbations 3D dans les données. Le code source et les documents complémentaires sont disponibles à l’adresse suivante : https://github.com/TencentARC/SGAT4PASS.