
要約
最近、3次元点群から直接3次元オブジェクトを検出する手法が注目を集めている。既存の手法では、不規則な点群からオブジェクト表現を抽出するために、通常、局所的な点をオブジェクト候補にグループ化するステップを実施し、その後、PointNetのようなネットワークを用いてグループ化された点からオブジェクト特徴を抽出している。しかし、手動で設計されたグループ化スキームによる点の不正確な割り当てが、3次元オブジェクト検出の性能を低下させている。本論文では、3次元点群から直接3次元オブジェクトを検出するシンプルかつ効果的な手法を提案する。従来の各オブジェクト候補に局所点をグループ化するアプローチとは異なり、本手法はTransformerにおけるアテンション機構を活用して、点群内のすべての点からオブジェクト特徴を計算する。このアプローチにより、各点の寄与度がネットワークの学習過程で自動的に学習される。さらに、改良されたアテンションスタッキングスキームを採用することで、異なる段階におけるオブジェクト特徴を効果的に融合し、より正確なオブジェクト検出結果を生成する。わずかな付加機能のみで、本手法は広く用いられている2つのベンチマーク、ScanNet V2およびSUN RGB-Dにおいて、最先端の3次元オブジェクト検出性能を達成した。コードおよびモデルは、以下のURLにて公開されている:\url{https://github.com/zeliu98/Group-Free-3D}