17日前
双方向投影ネットワークを用いたクロスディメンションシーン理解
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong

要約
2次元画像表現は規則的なグリッド構造を採用しており、効率的に処理可能である一方で、3次元ポイントクラウドは無秩序に3次元空間に散在している。これらの2つの視覚領域は互いに情報的に補完的であり、例えば2次元画像は細かいテクスチャ情報を有するのに対し、3次元ポイントクラウドには豊富な幾何学的情報を含んでいる。しかし、現在の大多数の視覚認識システムはこれらを個別に処理している。本論文では、エンドツーエンドの枠組みで2次元と3次元の推論を統合するための「双方向投影ネットワーク(BPNet)」を提案する。本ネットワークは対称的な構造を持つ2次元および3次元のサブネットワークから構成されており、これらを本研究で提案する「双方向投影モジュール(BPM)」によって接続している。BPMにより、2次元と3次元の補完的な情報が複数のアーキテクチャレベルで相互に交信可能となり、それぞれの視覚領域の利点を統合することで、より優れたシーン認識が実現される。広範な定量的および定性的な実験評価の結果、2次元と3次元の視覚領域における統合的推論は、両方のシーン理解に同時に利益をもたらすことが明らかになった。本研究で提案するBPNetは、2次元および3次元のセマンティックセグメンテーションにおいてScanNetV2ベンチマークでトップ性能を達成した。コードは以下のURLから公開されている:\url{https://github.com/wbhu/BPNet}。