
インテリアシーンにおける現在の3Dオブジェクト検出手法は、主にプロポーザルを生成するための「投票・グループ化(voting-and-grouping)」戦略に従っている。しかし、多くの手法では、ボールクエリ(ball query)などインスタンス無差別なグループ化を用いるため、セマンティクスの不整合やプロポーザルの回帰精度の低下という問題が生じている。本研究では、インテリアシーンにおけるアンカーフリー1段階3Dオブジェクト検出のため、新しいスーパーポイントグループ化ネットワーク(Superpoint Grouping Network)を提案する。具体的には、まず無教師学習のアプローチにより、原始的な点群をセマンティック的一貫性と空間的類似性を持つスーパーポイントに分割する。次に、アンカーフリー検出におけるセンターネス(centerness)に適応する幾何学的意識型投票モジュールを設計し、スーパーポイントとオブジェクト中心間の空間的関係を制約する。さらに、プロポーザル内における一貫した表現を探索するためのスーパーポイントベースのグループ化モジュールを提案する。このモジュールには、隣接するスーパーポイント間の特徴相互作用を学習するスーパーポイントアテンション層と、スーパーポイントレベルの情報をボクセルレベルに伝達するスーパーポイント-ボクセル融合層を含む。最後に、トレーニング中にスーパーポイントに基づくプロポーザルの動的受容fieldを活用するため、効果的な複数マッチング戦略を採用する。実験結果から、本手法はScanNet V2、SUN RGB-D、S3DISの3つのデータセットにおいて、インテリアシーンにおける1段階3Dオブジェクト検出で最先端の性能を達成することが示された。ソースコードは以下のURLから公開されている:https://github.com/zyrant/SPGroup3D。