2ヶ月前
3次元ヒューマンポーズ推定における空間および時間トランスフォーマーの利用
Zheng, Ce ; Zhu, Sijie ; Mendieta, Matias ; Yang, Taojiannan ; Chen, Chen ; Ding, Zhengming

要約
トランスフォーマー・アーキテクチャは、自然言語処理の分野で選ばれるモデルとなり、画像分類、物体検出、セマンティックセグメンテーションなどのコンピュータビジョンタスクにも導入されつつあります。しかし、ヒューマンポーズ推定の分野では、依然として畳み込み型アーキテクチャが主流となっています。本研究では、3次元ヒューマンポーズ推定において畳み込み型アーキテクチャを用いず、完全にトランスフォーマーに基づいたアプローチであるPoseFormerを提案します。最近のビジョントランスフォーマーの発展に触発されて、フレーム内のヒューマンジョイント関係とフレーム間の時間的相関を包括的にモデル化する空間時間的なトランスフォーマー構造を設計しました。そして、中央フレームの正確な3次元ヒューマンポーズを出力します。我々は、Human3.6MおよびMPI-INF-3DHPという2つの人気のある標準ベンチマークデータセット上で、当方法を定量的および定性的に評価しました。広範な実験結果から、PoseFormerは両データセットにおいて最先端の性能を達成していることが示されました。コードは\url{https://github.com/zczcwh/PoseFormer}で公開されています。