HyperAIHyperAI

Command Palette

Search for a command to run...

VTP:マルチビュー多人物3Dポーズ推定のためのボリュメトリックトランスフォーマー

Yuxing Chen Renshu Gu Ouhan Huang Gangyong Jia

概要

本稿では、マルチビュー・マルチペルソン3次元人体ポーズ推定を対象とした、初めての3次元ボリュームトランスフォーマーフレームワークであるVolumetric Transformer Pose estimator(VTP)を提案する。VTPは、すべてのカメラビューにおける2次元キーポイントから特徴を統合し、エンドツーエンドのフレームワークで3次元ボクセル空間における空間的関係を直接学習する。統合された3次元特徴は、3次元畳み込みを経てフラット化され、順序付き埋め込みとしてトランスフォーマーに入力される。さらに、性能を向上させるためにリジッド構造(残差構造)が設計されている。また、ボリューム表現におけるメモリコストという主要なボトルネックを軽減するため、スパースSinkhornアテンションが導入されており、優れた性能を実現している。トランスフォーマーの出力は、再びリジッド構造により3次元畳み込み特徴と連結される。提案するVTPフレームワークは、トランスフォーマーの高い性能とボリューム表現の強みを統合しており、畳み込みベースのバックボーンの優れた代替手段として利用可能である。Shelf、Campus、CMU Panopticのベンチマークにおける実験結果から、Mean Per Joint Position Error(MPJPE)およびCorrectly estimated Partsの割合(PCP)の両面で有望な性能が示された。本研究のコードは公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VTP:マルチビュー多人物3Dポーズ推定のためのボリュメトリックトランスフォーマー | 記事 | HyperAI超神経