
本稿では、LiDARデータにおける人間キーポイント推定に特化した完全スパースなネットワークアーキテクチャである「VoxelKP」を提案する。この課題の核心は、3次元空間において物体がスパースに分布している一方で、人間のキーポイント検出には人間が存在する場所において詳細な局所情報が必要となる点にある。本研究では4つの新規なアイデアを提案する。第一に、マルチスケールのコンテキストを捉えるためのスパース選択的カーネル(sparse selective kernels)を導入する。第二に、各人間インスタンス内のキーポイント間の空間的相関を学習に集中させるため、スパースボックスアテンション(sparse box-attention)を提案する。第三に、3次元ボクセルを2次元グリッド(鳥瞰図視点)に投影する際、絶対的な3次元座標を活用するための空間符号化(spatial encoding)を導入する。第四に、各ボクセル特徴の処理とスパース畳み込みを統合するハイブリッド特徴学習(hybrid feature learning)を提案する。我々の手法はWaymoデータセット上で評価され、同じデータで学習された最先端手法であるHUM3DILと比較してMPJPE指標で27%の向上を達成し、25倍も大きなデータセットで事前学習された最先端手法GC-KPLと比較しても12%の改善を示した。知られている限り、VoxelKPは、LiDARデータから3次元キーポイントを推定する困難なタスクに特化した、初めての単段階的かつ完全スパースなネットワークであり、最先端の性能を達成している。本研究のコードは、以下のURLから公開されている:\url{https://github.com/shijianjian/VoxelKP}。