
要約
点群動画(point cloud videos)は、空間次元において不規則性と順序の欠如を示し、異なるフレーム間で点が一貫して出現しないという特徴を持つ。点群動画における動的変化を捉えるために、通常は点の追跡(point tracking)が用いられるが、点がフレーム間で流入・流出するため、正確な点軌道の推定は極めて困難である。さらに、追跡手法は点の色に依存する傾向があり、色を持たない点群(colorless point clouds)に対しては機能を果たせない場合がある。本論文では、点追跡を回避するため、原始的な点群動画をモデル化する新しい「Point 4D Transformer(P4Transformer)」ネットワークを提案する。具体的には、P4Transformerは以下の2つのモジュールから構成される:(i) 点群動画に含まれる空間時系列的な局所構造を埋め込むための点4D畳み込み(point 4D convolution)、および (ii) 埋め込まれた局所特徴に対して自己注意(self-attention)を実行することで、動画全体にわたる外観および運動情報を捉えるTransformer。このアプローチにより、明示的な追跡ではなく、注意重みによって関連性や類似性を持つ局所領域が統合される。4つのベンチマークを用いた広範な実験(3D行動認識および4Dセマンティックセグメンテーション)により、本手法が点群動画モデリングにおいて有効であることが示された。