
三次元オブジェクトは、通常、点群内の3Dボックスとして表現されます。この表現方法は、よく研究されている画像ベースの2Dバウンディングボックス検出を模倣していますが、追加の課題も伴います。三次元空間におけるオブジェクトは特定の方向性に従うものではなく、ボックスベースの検出器はすべての方向性を列挙したり、回転したオブジェクトに軸richted(axis-aligned)バウンディングボックスを適合させることが困難です。本論文では、代わりに3Dオブジェクトを点として表現し、検出し、追跡する方法を提案します。当方針であるCenterPointは、まずキーポイント検出器を使用してオブジェクトの中心を検出し、3Dサイズ、3D向き(orientation)、速度などの他の属性への回帰を行います。第二段階では、オブジェクト上の追加の点特徴量を使用してこれらの推定値を精緻化します。CenterPointにおいて、3Dオブジェクト追跡は貪欲な最寄り点マッチングに簡略化されます。その結果得られる検出および追跡アルゴリズムは単純で効率的かつ効果的です。CenterPointはnuScenesベンチマークにおいて3D検出と追跡の両方で最先端の性能を達成しており、単一モデルで65.5 NDSおよび63.8 AMOTAを記録しています。Waymoオープンデータセットにおいても、CenterPointは以前の単一モデル手法よりも大幅に優れ、Lidarのみを使用した提出の中で首位となっています。コードおよび事前学習済みモデルはhttps://github.com/tianweiy/CenterPointから入手可能です。注:「軸richted」(axis-aligned)という言葉が途中で切れてしまっているため、「軸richted(axis-aligned)」と表記しました。「richted」部分は「aligned」であるべきですので、「軸richted(axis-aligned)」と解釈してください。