HyperAIHyperAI
vor 17 Tagen

SGAT4PASS: Spherical Geometry-Aware Transformer für die Panoramische Semantische Segmentierung

Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li
SGAT4PASS: Spherical Geometry-Aware Transformer für die Panoramische Semantische Segmentierung
Abstract

Als ein wichtiges und herausforderndes Problem im Bereich des Computersehens ermöglicht die Panoramische Semantische Segmentierung (PASS) eine vollständige Szenenwahrnehmung auf Basis eines ultraweiten Gesichtsfelds. Übliche PASS-Methoden, die Eingabedaten in Form von 2D-Panoramabildern verwenden, konzentrieren sich hauptsächlich auf die Korrektur von Bildverzerrungen, berücksichtigen jedoch die 3D-Eigenschaften der ursprünglichen $360^{\circ}$-Daten nicht ausreichend. Dadurch sinkt ihre Leistung erheblich, wenn Panoramabilder mit 3D-Störungen als Eingabe vorliegen. Um robuster gegenüber 3D-Störungen zu sein, schlagen wir den Spherical Geometry-Aware Transformer für die Panoramische Semantische Segmentierung (SGAT4PASS) vor, der Kenntnisse über die 3D-sphärische Geometrie integriert. Konkret wird ein sphärisch geometriebehaftetes Framework für PASS vorgestellt, das drei Module umfasst: eine sphärisch geometriebehaftete Bildprojektion, eine sphärisch deformierbare Patch-Embedding-Methode sowie eine panoramaorientierte Verlustfunktion. Diese Module berücksichtigen jeweils Eingabebilder mit 3D-Störungen, fügen der bestehenden deformierbaren Patch-Embedding-Methode eine sphärisch geometriebehaftete Einschränkung hinzu und kodieren die Pixel-Dichte der ursprünglichen $360^{\circ}$-Daten. Experimentelle Ergebnisse auf den Stanford2D3D-Panoramas-Datensätzen zeigen, dass SGAT4PASS die Leistung und Robustheit signifikant verbessert – mit einer Steigerung des mIoU um etwa 2 Prozent – und dass die Stabilität der Leistung bei geringfügigen 3D-Störungen um eine Größenordnung erhöht wird. Der Quellcode und zusätzliche Materialien sind unter https://github.com/TencentARC/SGAT4PASS verfügbar.