11日前
ImVoteNet:画像投票を活用した点群における3Dオブジェクト検出の性能向上
Charles R. Qi, Xinlei Chen, Or Litany, Leonidas J. Guibas

要約
3次元オブジェクト検出は、点群データに対する深層学習の進展により急速な進歩を遂げてきた。最近のいくつかの研究では、点群データのみを入力として用いることで、既存の最先端性能を達成している(例:VoteNet)。しかし、点群データには固有の制約がある。点群は疎であり、色情報が欠落しており、センサーのノイズの影響を受けやすい。一方で、画像は高解像度であり、豊かなテクスチャを持つため、点群から得られる3次元幾何情報と相補的な役割を果たすことができる。しかし、画像情報を効果的に活用して点群ベースの検出を支援する方法については、依然として未解決の課題である。本研究では、VoteNetを基盤とし、RGB-Dシーンに特化した3次元検出アーキテクチャであるImVoteNetを提案する。ImVoteNetは、画像における2次元投票と点群における3次元投票を統合する構造に基づいている。既存のマルチモーダル検出研究と異なり、本手法は2次元画像から幾何学的特徴と意味的特徴を明示的に抽出する。さらに、カメラの内部パラメータを活用してこれらの特徴を3次元空間に投影する。2次元と3次元の特徴統合の相乗効果を高めるために、マルチタワートレーニングスキームも提案する。我々のモデルは、挑戦的なSUN RGB-Dデータセット上で検証され、既存の最先端性能をmAPで5.7ポイント向上させた。また、各設計選択の寄与を詳細に分析するための豊富な消去実験も提供している。