13日前

3次元人体ポーズ推定のための精緻化された時系列ピラミダル圧縮・拡張Transformer

Hanbing Liu, Wangmeng Xiang, Jun-Yan He, Zhi-Qi Cheng, Bin Luo, Yifeng Geng, Xuansong Xie
3次元人体ポーズ推定のための精緻化された時系列ピラミダル圧縮・拡張Transformer
要約

動画シーケンスにおける人体の3Dポーズを正確に推定するには、高い精度と整合性のあるアーキテクチャが不可欠です。トランスフォーマーの成功を踏まえ、本研究では「精緻な時系列ピラミッド圧縮・拡張(RTPCA)トランスフォーマー」を提案します。RTPCAは時系列次元を活用し、Intra-blockにおける時系列モデリングを、時系列ピラミッド圧縮・拡張(TPCA)構造によって拡張するとともに、クロスレイヤー精緻化(XLR)モジュールによりブロック間の特徴相互作用を精緻化しています。特にTPCAブロックは時系列ピラミッドの枠組みを採用し、キーおよびバリュー表現能力を強化するとともに、動きのシーケンスから空間的意味をスムーズに抽出します。これらのTPCAブロックをXLRモジュールで接続することで、クエリ、キー、バリュー間の継続的な相互作用を通じて豊かな意味表現を促進します。この戦略により、初期段階の情報が現在の流れに反映され、他のトランスフォーマーに基づく手法に見られる詳細性や安定性の欠如といった典型的な課題を克服しています。我々は、Human3.6M、HumanEva-I、MPI-INF-3DHPのベンチマークにおいて、最小限の計算負荷で最先端の性能を達成することにより、RTPCAの有効性を実証しました。ソースコードは以下のURLで公開されています:https://github.com/hbing-l/RTPCA。

3次元人体ポーズ推定のための精緻化された時系列ピラミダル圧縮・拡張Transformer | 最新論文 | HyperAI超神経