17日前

マルチモーダルな球面画像を用いた単一フレームのセマンティックセグメンテーション

Suresh Guttikonda, Jason Rambach
マルチモーダルな球面画像を用いた単一フレームのセマンティックセグメンテーション
要約

近年、360度の方向性視野を提供するパノラマ画像に対する研究コミュニティの関心が高まっている。複数のデータモダリティを入力可能であり、セマンティックセグメンテーションに基づくシーン解釈をより堅牢かつ豊かにするために、各モダリティの補完的特徴を活用する可能性が期待されている。しかし、従来の研究は主にピンホール型RGB-Xのセマンティックセグメンテーションに集中していた。本研究では、マルチモーダル融合とオムニディレクショナルシーン認識のギャップを埋めるため、トランスフォーマーに基づくクロスモーダル融合アーキテクチャを提案する。等距離円筒投影(equirectangular representation)に起因する極端な物体の歪みやパノラマ歪みに対処するため、歪みを認識するモジュールを採用している。さらに、特徴の統合前に、二モーダルおよび三モーダルな特徴ストリーム間でクロスモーダル相互作用を実施し、特徴の補正と情報交換を図ることで、長距離のコンテキスト情報を効果的に伝達する。3つの屋内パノラマビュー用データセット(Stanford2D3DS、Structured3D、Matterport3D)を用いた、4種類の異なるモダリティ組み合わせに対する包括的な実験において、本手法は最先端のmIoU性能を達成した。具体的には、Stanford2D3DS(RGB-HHA)で60.60%、Structured3D(RGB-D-N)で71.97%、Matterport3D(RGB-D)で35.92%の結果を得た。今後、すべてのコードおよび学習済みモデルを公開する予定である。