8ヶ月前

概要

単眼3Dヒューマンポーズ推定技術は、ヒューマンムーブメントデータの可用性を大幅に向上させる可能性を持っています。単一画像の2D-3Dリフティングで最も高性能なモデルは、通常、異なる体節点間の関係を定義するために某种程度の手動入力を必要とするグラフ畳み込みネットワーク（GCNs）を使用しています。本研究では、これらの関係を節点を表すトークン列内で学習するためのより汎用的な自己注意機構を使用した新しいトランスフォーマーベースのアプローチを提案します。中間監督の使用や積み重ねたエンコーダー間の残差接続が性能に寄与することを見出しました。また、エラーパス予測をマルチタスク学習フレームワークの一環として使用することで、ネットワークが自身の信頼度レベルを補正し性能が向上することも示唆しています。我々は広範な削減実験を行い、各貢献が性能を向上させることを示しました。さらに、我々のアプローチが単一フレーム3Dヒューマンポーズ推定における最近の最先端技術よりも大幅に優れていることを示しました。当該コードおよび学習済みモデルはGitHub上で公開されています。注：「ablation studies」は一般的に「削減実験」と訳されます。「intermediate supervision」は「中間監督」、「residual connections」は「残差接続」と訳されることが多いです。

ソースPDF コードを表示