17日前

3次元人体ポーズ推定のための適応的マルチビューおよび時系列融合Transformer

Hui Shuai, Lele Wu, Qingshan Liu
3次元人体ポーズ推定のための適応的マルチビューおよび時系列融合Transformer
要約

本稿では、カメラキャリブレーションを必要とせずに、視点数や動画長の変動に対応できる統一的な枠組みとして、マルチビューおよび時間的融合Transformer(MTF-Transformer)を提案する。本モデルは、特徴抽出器(Feature Extractor)、マルチビュー融合Transformer(MFT)、時間的融合Transformer(TFT)から構成される。特徴抽出器は各画像から2次元ポーズを推定し、信頼度に基づいて予測結果を融合する。これにより、ポーズに焦点を当てた特徴埋め込みを提供し、後続のモジュールの計算負荷を軽減する。MFTは、新たな相対注意(Relative-Attention)ブロックを用いて、視点数が変動する状況下でも特徴を融合する。このブロックは、各視点ペア間の暗黙的な相対関係を適応的に評価し、より情報量の多い特徴を再構成する。TFTは、動画全体の特徴を統合し、Transformerを用いて3次元ポーズを予測する。これにより、任意長の動画に対しても適応的に処理可能であり、時間情報を完全に活用する。Transformerの導入により、空間的な幾何構造をより正確に学習でき、さまざまな実用シーンにおいても高いロバスト性を維持できる。本手法は、Human3.6M、TotalCapture、KTH Multiview Football IIの3つのデータセットにおいて、定量的および定性的な評価を実施。カメラパラメータを用いた最先端手法と比較しても競争力のある結果を達成し、未観測の任意の視点数を持つ動的撮影環境にも良好な汎化性能を示した。

3次元人体ポーズ推定のための適応的マルチビューおよび時系列融合Transformer | 最新論文 | HyperAI超神経