
要約
3次元セマンティックセグメンテーションに関する最近の研究では、画像と点群の間の相乗効果を活用する手法が提案されている。これらの手法は、各モダリティを専用のネットワークで処理し、学習された2次元特徴を3次元点に投影することで実現している。大規模な点群と画像の統合には、点とピクセルの対応関係の構築や、複数視点間の特徴の集約といった課題が伴う。現在の手法は、隠蔽部の復元のためにメッシュ再構成や専用センサーを必要とし、利用可能な画像の選択と集約にヒューリスティックを用いている。これに対して、本研究では、3次元点の視点条件を活用して、任意の位置から撮影された画像からの特徴を統合するエンドツーエンド学習可能なマルチビュー集約モデルを提案する。本手法は標準的な2次元および3次元ネットワークを組み合わせることができ、色付け処理、メッシュ化、真の深度マップの必要なしに、色付き点群上で動作する3次元モデルおよびハイブリッド2D/3Dネットワークを上回る性能を達成する。S3DIS(74.7 mIoU 6-Fold)およびKITTI-360(58.3 mIoU)における大規模屋内・屋外セマンティックセグメンテーションにおいて、新たな最先端の性能を達成した。本研究の完全なパイプラインは、https://github.com/drprojects/DeepViewAgg にて公開されており、原始的な3次元スキャンデータおよび画像とポーズ情報のセットのみを必要とする。