17日前

SGAT4PASS:パノラマセマンティックセグメンテーション向けの球面幾何学認識Transformer

Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li
SGAT4PASS:パノラマセマンティックセグメンテーション向けの球面幾何学認識Transformer
要約

コンピュータビジョンにおける重要な課題として、パノラマセマンティックセグメンテーション(PASS)は、超広角視野に基づく完全なシーン認識を実現する。従来のPASS手法は、2Dパノラマ画像を入力としており、主に画像歪みの補正に注力しているが、元の360°データが持つ3D特性を十分に考慮していない。その結果、3D的な歪みを含むパノラマ画像を入力とした場合、性能が著しく低下する傾向にある。この問題を解決し、3D歪みに対してよりロバストな性能を実現するため、本研究では3D球面幾何学の知識を組み込んだ「パノラマセマンティックセグメンテーションのための球面幾何学認識トランスフォーマー(SGAT4PASS)」を提案する。具体的には、PASSに適した球面幾何学認識フレームワークを構築し、以下の3つのモジュールを含む。第一に、球面幾何学認識型の画像投影手法、第二に、球面幾何学認識型の可変パッチ埋め込み(deformable patch embedding)、第三に、パノラマに特化した損失関数である。これらのモジュールは、それぞれ3D歪みを含む入力画像に対応し、既存の可変パッチ埋め込みに球面幾何学認識制約を追加するとともに、元の360°データのピクセル密度情報を明示的に反映する。スタンフォード2D3Dパノラマデータセットにおける実験結果から、SGAT4PASSはmIoUにおいて約2%の向上を達成し、データに微小な3D歪みが生じた場合でも、性能の安定性が1桁向上することが確認された。本研究のコードおよび補足資料は、https://github.com/TencentARC/SGAT4PASS にて公開している。