8ヶ月前

概要

最近、完全トランスフォーマー構造が3次元人体姿勢推定タスクにおける従来の畳み込み構造に代わっています。本論文では、新しい動的なマルチヘッド畳み込み自己注意機構（dynamic multi-headed convolutional self-attention）を用いて単眼3次元人体姿勢推定を行うための新たな畳み込みトランスフォーマーConvFormerを提案します。私たちは、個々のフレーム内の人体関節関係と運動シーケンス全体での関係を包括的にモデル化するための空間的および時間的な畳み込みトランスフォーマーを設計しました。さらに、時間的なConvFormerのために、完全な時間情報を局所的な関節特徴量の近傍に即座に融合する新しい概念である時間的関節プロファイル（temporal joints profile）を導入しています。我々は、Human3.6M、MPI-INF-3DHP、およびHumanEvaという三つの一般的なベンチマークデータセットで、本手法の定量的および定性的評価を行いました。最適なハイパーパラメータセットを特定するために広範な実験が行われました。これらの実験により、既存のトランスフォーマーモデルに対して大幅なパラメータ削減を達成しながら、すべての三つのデータセットで最先端（SOTA）またはそれに近い性能を得ることが示されました。また、H36MにおいてProtocol IIIでGTおよびCPN検出入力双方に対してSOTAを達成しました。最後に、MPI-INF-3DHPデータセットでは三つの指標全てでSOTAを達成し、HumanEvaではProtocol IIのもとで三つの被験者全てにおいてSOTAを得ました。

ソースPDF コードを表示