HyperAIHyperAI

Command Palette

Search for a command to run...

時間的な文脈を用いたストライド変換器による3次元人間姿勢推定

Wenhao Li Hong Liu† Runwei Ding Mengyuan Liu Pichao Wang Wenming Yang

概要

ビデオからの3次元人間姿勢推定において大きな進歩が見られますが、冗長な2次元姿勢シーケンスを完全に活用して代表的な表現を学習し、1つの3次元姿勢を生成することは依然として未解決の問題です。この課題に対処するため、私たちは単純かつ効果的に長い2次元関節位置のシーケンスを1つの3次元姿勢に変換する改良されたトランスフォーマーに基づくアーキテクチャであるストライドトランスフォーマー(Strided Transformer)を提案します。具体的には、2次元姿勢シーケンスの長距離依存関係をモデル化するために、バニラトランスフォーマーエンコーダ(Vanilla Transformer Encoder: VTE)が採用されます。シーケンスの冗長性を削減するために、VTEのフィードフォワードネットワーク内の全結合層はストライド畳み込みに置き換えられ、シーケンス長を段階的に縮小し、局所コンテキストから情報を集約します。この修正されたVTEはストライドトランスフォーマーエンコーダ(Strided Transformer Encoder: STE)と呼ばれ、VTEの出力に基づいて構築されます。STEは階層的な全体と局所の方法で長距離情報を集約し、1つのベクトル表現を作り出すだけでなく、計算コストも大幅に削減します。さらに、VTEとSTEの出力に対してそれぞれフルシーケンスと単一ターゲットフレームの両方の尺度で適用されるフルツーシングル監督スキームが設計されています。このスキームは単一ターゲットフレーム監督とともに追加的な時間的平滑性制約を課すことで、より滑らかで正確な3次元姿勢の生成に貢献します。提案されたストライドトランスフォーマーは2つの困難なベンチマークデータセットであるHuman3.6MとHumanEva-Iで評価され、少ないパラメータ数で最先端の結果を達成しました。コードとモデルは\url{https://github.com/Vegetebird/StridedTransformer-Pose3D}から入手可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています