
要約
3Dヒューマンポーズ推定(HPE)は、RGB画像、深度マップ、または点群などの2Dまたは3D表現から人間の体のキーポイントを3次元空間に位置づけるタスクです。現在の深度と点群からのHPE手法は主に単一フレーム推定に依存しており、シーケンスからの時間情報を活用していません。本論文では、点群シーケンスを使用した3D HPEの新しいアプローチであるSPiKEを提案します。既存の手法がシーケンス内の各フレームを独立して処理するのに対し、SPiKEはトランスフォーマー構造を採用することで、シーケンス全体でのポイント間の時空間関係を符号化し、時間的な文脈を利用します。点群を局所ボリュームに分割し、点空間畳み込みによる空間特徴抽出を行うことで、SPiKEは各タイムスタンプにおける空間的一貫性を保ちつつ、トランスフォーマーによる効率的な処理を確保します。ITOPベンチマークでの実験結果によると、SPiKEは89.19%のmAP(mean Average Precision)を達成し、大幅に低い推論時間を実現しながら最先端の性能を発揮しています。詳細なアブレーション研究により、シーケンスの利用と我々のアルゴリズム選択の有効性がさらに検証されています。コードとモデルは以下のURLで公開されています: https://github.com/iballester/SPiKE