時間的な文脈を用いたストライド変換器による3次元人間姿勢推定

ビデオからの3次元人間姿勢推定において大きな進歩が見られますが、冗長な2次元姿勢シーケンスを完全に活用して代表的な表現を学習し、1つの3次元姿勢を生成することは依然として未解決の問題です。この課題に対処するため、私たちは単純かつ効果的に長い2次元関節位置のシーケンスを1つの3次元姿勢に変換する改良されたトランスフォーマーに基づくアーキテクチャであるストライドトランスフォーマー(Strided Transformer)を提案します。具体的には、2次元姿勢シーケンスの長距離依存関係をモデル化するために、バニラトランスフォーマーエンコーダ(Vanilla Transformer Encoder: VTE)が採用されます。シーケンスの冗長性を削減するために、VTEのフィードフォワードネットワーク内の全結合層はストライド畳み込みに置き換えられ、シーケンス長を段階的に縮小し、局所コンテキストから情報を集約します。この修正されたVTEはストライドトランスフォーマーエンコーダ(Strided Transformer Encoder: STE)と呼ばれ、VTEの出力に基づいて構築されます。STEは階層的な全体と局所の方法で長距離情報を集約し、1つのベクトル表現を作り出すだけでなく、計算コストも大幅に削減します。さらに、VTEとSTEの出力に対してそれぞれフルシーケンスと単一ターゲットフレームの両方の尺度で適用されるフルツーシングル監督スキームが設計されています。このスキームは単一ターゲットフレーム監督とともに追加的な時間的平滑性制約を課すことで、より滑らかで正確な3次元姿勢の生成に貢献します。提案されたストライドトランスフォーマーは2つの困難なベンチマークデータセットであるHuman3.6MとHumanEva-Iで評価され、少ないパラメータ数で最先端の結果を達成しました。コードとモデルは\url{https://github.com/Vegetebird/StridedTransformer-Pose3D}から入手可能です。