HyperAIHyperAI

Command Palette

Search for a command to run...

MixSTE: Seq2seq 混合空間時間エンコーダーによるビデオ中の3次元人間ポーズ推定

Jinlu Zhang Zhigang Tu Jianyu Yang Yujin Chen Junsong Yuan

概要

最近、トランスフォーマーを基盤とするソリューションが導入され、全フレームにおける身体の関節を考慮して空間時間相関を学習することにより、2Dキーポイントシーケンスから3Dヒューマンポーズを推定することが可能になりました。私たちは異なる関節の動きが著しく異なることを観察しています。しかし、従来の手法は各関節のフレーム間の固有の対応関係を効率的にモデル化することができず、結果として空間時間相関の学習が不十分であることが指摘されています。本研究では、MixSTE(Mixed Spatio-Temporal Encoder)を提案します。このエンコーダには、各関節の時間的な動きを個別にモデル化するための一時的トランスフォーマーブロックと、関節間の空間的な相関を学習するための空間トランスフォーマーブロックが含まれています。これらの2つのブロックは交互に使用することで、より優れた空間時間特徴量エンコーディングを実現します。さらに、ネットワーク出力は中央フレームから入力ビデオ全体のフレームへと拡張され、これにより入力シーケンスと出力シーケンス間の一貫性が向上します。三つのベンチマーク(Human3.6M, MPI-INF-3DHP, および HumanEva)において広範な実験が行われました。その結果、私たちのモデルは最新手法に対してP-MPJPEで10.9%、MPJPEで7.6%上回ることが示されました。コードはhttps://github.com/JinluZhang1126/MixSTE で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MixSTE: Seq2seq 混合空間時間エンコーダーによるビデオ中の3次元人間ポーズ推定 | 記事 | HyperAI超神経