2ヶ月前

Point 4D Transformer Networkによる点群動画における空間時系列モデリング

{Mohan Kankanhalli, Yi Yang, Hehe Fan}

要約

点群動画（point cloud videos）は、空間次元において不規則性と順序の欠如を示し、異なるフレーム間で点が一貫して出現しないという特徴を持つ。点群動画における動的変化を捉えるために、通常は点の追跡（point tracking）が用いられるが、点がフレーム間で流入・流出するため、正確な点軌道の推定は極めて困難である。さらに、追跡手法は点の色に依存する傾向があり、色を持たない点群（colorless point clouds）に対しては機能を果たせない場合がある。本論文では、点追跡を回避するため、原始的な点群動画をモデル化する新しい「Point 4D Transformer（P4Transformer）」ネットワークを提案する。具体的には、P4Transformerは以下の2つのモジュールから構成される：(i) 点群動画に含まれる空間時系列的な局所構造を埋め込むための点4D畳み込み（point 4D convolution）、および (ii) 埋め込まれた局所特徴に対して自己注意（self-attention）を実行することで、動画全体にわたる外観および運動情報を捉えるTransformer。このアプローチにより、明示的な追跡ではなく、注意重みによって関連性や類似性を持つ局所領域が統合される。4つのベンチマークを用いた広範な実験（3D行動認識および4Dセマンティックセグメンテーション）により、本手法が点群動画モデリングにおいて有効であることが示された。