3Dイベントポイントクラウドを用いた効率的な人間姿勢推定

RGB画像に基づくヒューマンポーズ推定(HPE)は、深層学習の恩恵を受け、急速な発展を遂げています。しかし、イベントベースのHPEはまだ十分に研究されておらず、極端なシーンや効率が重要な条件での応用において大きな可能性を秘めています。本論文では、3Dイベントポイントクラウドから直接2Dヒューマンポーズを推定する初めての試みを行いました。我々は新しいイベント表現であるラスタライズされたイベントポイントクラウドを提案します。これは、短い時間スライス内の同じ位置にあるイベントを集約したものです。この表現は、複数の統計的ヒントから3D特徴を維持しつつ、メモリ消費と計算複雑さを大幅に削減し、当社の研究でその効率性が証明されています。次に、ラスタライズされたイベントポイントクラウドをPointNet、DGCNN、およびPoint Transformerという3つの異なるバックボーンへの入力として利用し、2つの線形層デコーダーを使用して人間のキーポイントの位置を予測しました。我々の方法に基づいてPointNetは高速かつ有望な結果を得ることができましたが、Point Transformerはより高い精度を達成し、以前のイベントフレームベースの方法に近い性能を示しました。包括的な結果セットにより、提案手法がこれらの3Dバックボーンモデルに対して一貫して有効であることが示されました。PointNetを使用し2048点の入力を用いた当社の方法は、DHP19データセット上でMPJPE3Dで82.46mmの精度を達成しています。また、NVIDIA Jetson Xavier NXエッジコンピューティングプラットフォーム上での遅延は12.29msのみであり、リアルタイム検出に理想的に適しています。コードは以下のURLから入手可能です: https://github.com/MasterHow/EventPointPose