17日前

(Fusionformer): Transformerを基盤とする統合ネットワークを用いた3D人体ポーズ推定における連合運動シンエジーの活用

Xinwei Yu, Xiaohua Zhang
(Fusionformer): Transformerを基盤とする統合ネットワークを用いた3D人体ポーズ推定における連合運動シンエジーの活用
要約

現在の3D人体ポーズ推定タスクにおいて、多くの手法は空間的・時間的相関から2D-3D投影の規則を学習する。しかし、従来の手法は時間領域における全身関節のグローバルな特徴をモデル化する一方で、個々の関節の運動軌道を無視している。最近の研究[29]では、異なる関節間で運動に差異が生じることに着目し、各関節の時間的関係を個別に処理している。しかし、我々は特定の動作において異なる関節が同じ運動傾向を示すことを発見した。このため、本研究で提案するFusionformer手法は、空間時間モジュールに基づき、自己軌道モジュールと相互軌道モジュールを導入した。その後、線形ネットワークを用いて、グローバルな空間時間特徴とローカルな関節軌道特徴を並列的に融合する。また、不良な2Dポーズが3D投影に与える影響を低減するため、最終的にポーズ精細化ネットワークを導入し、3D投影の整合性をバランスさせる。さらに、本手法は2つのベンチマークデータセット(Human3.6M、MPI-INF-3DHP)上で評価された。ベースライン手法であるPoseFormerと比較した結果、Human3.6Mデータセットにおいて、MPJPEが2.4%、P-MPJPEが4.3%改善した。

(Fusionformer): Transformerを基盤とする統合ネットワークを用いた3D人体ポーズ推定における連合運動シンエジーの活用 | 最新論文 | HyperAI超神経