15日前
IVT:3次元ポーズ推定のためのエンドツーエンド型インスタンス誘導型ビデオトランスフォーマー
Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu

要約
3D人体ポーズ推定の動画ベース手法は、動画から人体関節の3D座標を推定することを目的としています。近年のTransformerベースのアプローチは、連続する2Dポーズから時空間情報を捉えることに注力していますが、2Dポーズ推定の段階で視覚的深度特徴が失われてしまうため、文脈的な深度特徴を効果的にモデル化できません。本論文では、このような課題を解決するために、エンドツーエンドのフレームワークである「インスタンス誘導型ビデオTransformer(Instance-guided Video Transformer, IVT)」を提案します。この手法は、視覚特徴から時空間的な文脈的深度情報を効果的に学習し、動画フレームから直接3Dポーズを予測することを可能にします。具体的には、動画フレームをインスタンス誘導型トークンの系列として定式化し、各トークンが1人の人物インスタンスの3Dポーズを予測する役割を担います。これらのトークンは、人体中心から各関節への関節オフセットに基づくガイドによって抽出されるため、身体構造情報を含んでいます。その後、これらのトークンをIVTに供給し、時空間的な文脈的深度情報を学習します。さらに、複数人物間のスケール変動に対応するため、クロススケールのインスタンス誘導型アテンション機構を提案します。最後に、各人物の3Dポーズは、インスタンス誘導型トークンから座標回帰により復元されます。3つの広く用いられている3Dポーズ推定ベンチマークにおける実験結果から、提案手法IVTが最先端の性能を達成することが確認されました。