11日前
ピラミッドR-CNN:3Dオブジェクト検出におけるより優れた性能と適応性の実現へ
Jiageng Mao, Minzhe Niu, Haoyue Bai, Xiaodan Liang, Hang Xu, Chunjing Xu

要約
本稿では、点群からの2段階型3D物体検出に向けた柔軟性と高い性能を兼ね備えたフレームワーク、Pyramid R-CNNを提案する。現行の手法は、2段階目のRoI特徴抽出において、主に注目領域(RoI)内の点またはボクセルに依存しているが、これらの点群の疎らさや非均一な分布に対処できず、遠方の物体検出において失敗が生じる可能性がある。この問題を解決するため、稀な注目点から特徴を適応的に学習可能な新たな2段階モジュール、Pyramid RoI headを提案する。Pyramid RoI headは、以下の3つの主要な構成要素からなる。第一に、各RoIに対してピラミッド形式で注目点を広範囲に収集する「RoIグリッドピラミッド」を提案することで、点群の疎らさを緩和する。第二に、従来のアテンションベースおよびグラフベースの点操作を統一的な定式化に統合した「RoIグリッドアテンション」という新規演算を提案し、疎な点群からより豊かな情報を符号化可能とする。第三に、「密度に応じた半径予測(DARP)」モジュールを導入し、RoIの注目範囲を動的に調整することで、異なる点密度レベルに適応可能とする。これらの3つの要素を統合することで、Pyramid RoI headは疎で不均衡な状況にも強靭であり、さまざまな3Dバックボーンに適用可能であり、一貫して検出性能を向上させることができる。広範な実験の結果、Pyramid R-CNNはKITTIデータセットおよびWaymo Openデータセットの両方において、最先端の3D検出モデルを大きく上回る性能を達成した。