
要約
3次元オブジェクト検出は、ロボティクスや拡張現実(AR)など多くの有望な分野への応用可能性から、広く研究されている。しかし、3次元データの疎な性質がこのタスクに特有の課題をもたらしている。特に顕著なのは、3次元ポイントクラウドの可視表面がオブジェクトの中心から離れているため、バウンディングボックス予測を基盤とするための中心位置を明確に定義しづらい点である。この課題に対処するため、本研究では「生成的疎検出ネットワーク(Generative Sparse Detection Network, GSDN)」を提案する。GSDNは、完全畳み込み型の単一パス(single-shot)疎検出ネットワークであり、オブジェクト候補のためのサポートを効率的に生成する。本モデルの核心となるのは、系列的な逆畳み込み(transposed convolutions)とプルーニング層を用いて疎テンソルのサポートを拡張しつつ、不確実なオブジェクト中心を除外することで、最小限の実行時間とメモリ使用量を維持する「生成的疎テンソルデコーダ」である。GSDNは、単一の完全畳み込み型フォワードパスで前例のない規模の入力を処理可能であり、従来の手法が用いてきたスライディングウィンドウからの結果を手動で統合するヒューリスティックな後処理ステージを必要としない。我々の手法は、3次元屋内データセット3種類において検証され、特に大規模な3次元屋内再構成データセットにおいて、最先端手法に対して相対的に7.14%の性能向上を達成しつつ、最良の先行研究よりも3.78倍高速であることを確認した。