11日前
HEDNet:点群における3Dオブジェクト検出のための階層的エンコーダデコーダネットワーク
Gang Zhang, Junnan Chen, Guohuan Gao, Jianmin Li, Xiaolin Hu

要約
ポイントクラウドにおける3Dオブジェクト検出は、自動運転システムにおいて重要な役割を果たしている。3Dオブジェクト検出の主な課題の一つは、3Dシーン内における点の分布が疎であることにある。既存の高性能な手法は、通常、小さなカーネルを用いた3Dスパース畳み込みニューラルネットワークを採用して特徴を抽出している。計算コストを削減するため、これらの手法は空間的に分離された特徴間の情報交換を防ぐサブマニフォールドスパース畳み込みに依存している。近年、大カーネル畳み込みや自己注意機構(self-attention)を導入することでこの問題に取り組もうとするアプローチも提案されているが、それらは精度向上が限定的であるか、あるいは計算コストが過度に増大するという課題を抱えている。本研究では、空間領域における特徴間の長距離依存性、特に大規模かつ遠方のオブジェクトに対して効果的に捉えることを目的として、階層的エンコーダ・デコーダ構造を採用したHEDNetを提案する。エンコーダ・デコーダブロックを活用することで、空間的な特徴間の広範な関係性を捉えることが可能となる。提案手法は、Waymo OpenおよびnuScenesデータセット上で広範な実験を実施した結果、従来の最先端手法と比較して優れた検出精度を達成しつつ、競争力ある効率性を維持した。コードは以下のURLから公開されている:https://github.com/zhanggang001/HEDNet。