HyperAIHyperAI

Command Palette

Search for a command to run...

Jointformer: エラーベースの単一フレームリフティングトランスフォーマーによる3次元人間姿勢推定の精度向上

C. Li J. Zhang

概要

単眼3Dヒューマンポーズ推定技術は、ヒューマンムーブメントデータの可用性を大幅に向上させる可能性を持っています。単一画像の2D-3Dリフティングで最も高性能なモデルは、通常、異なる体節点間の関係を定義するために某种程度の手動入力を必要とするグラフ畳み込みネットワーク(GCNs)を使用しています。本研究では、これらの関係を節点を表すトークン列内で学習するためのより汎用的な自己注意機構を使用した新しいトランスフォーマーベースのアプローチを提案します。中間監督の使用や積み重ねたエンコーダー間の残差接続が性能に寄与することを見出しました。また、エラーパス予測をマルチタスク学習フレームワークの一環として使用することで、ネットワークが自身の信頼度レベルを補正し性能が向上することも示唆しています。我々は広範な削減実験を行い、各貢献が性能を向上させることを示しました。さらに、我々のアプローチが単一フレーム3Dヒューマンポーズ推定における最近の最先端技術よりも大幅に優れていることを示しました。当該コードおよび学習済みモデルはGitHub上で公開されています。注:「ablation studies」は一般的に「削減実験」と訳されます。「intermediate supervision」は「中間監督」、「residual connections」は「残差接続」と訳されることが多いです。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています