8ヶ月前

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Soroush Mehraban Vida Adeli Babak Taati

概要

最近のトランスフォーマーを基にした手法は、3次元ヒューマンポーズ推定において優れた性能を示しています。しかし、これらの手法は全体的な視点を持ち、すべての関節間のグローバルな関係性をエンコードすることにより、局所的な依存関係を正確に捉えることができません。本論文では、チャンネル数を2つの並列ストリームであるトランスフォーマーとGCNFormerで分割する新しいAttention-GCNFormer (AGFormer) ブロックを提案します。我々が提案するGCNFormerモジュールは、隣接する関節間の局所的な関係性を利用し、トランスフォーマー出力と補完的な新しい表現を生成します。これらの2つの表現を適応的に融合することで、AGFormerは基礎となる3次元構造をよりよく学習する能力を持っています。複数のAGFormerブロックを積み重ねることで、速度と精度のトレードオフに基づいて選択できる4種類の異なるバリアントを持つMotionAGFormerを提案します。我々はHuman3.6MおよびMPI-INF-3DHPという2つの主要なベンチマークデータセット上でモデルを評価しました。MotionAGFormer-Bは最新の結果を達成しており、それぞれP1エラーが38.4mmおよび16.2mmとなっています。特に注目すべきは、Human3.6Mデータセットにおける以前の最高峰モデルに比べてパラメータ数が4分の1であり、計算効率も3倍高いことです。コードとモデルはhttps://github.com/TaatiTeam/MotionAGFormer から入手可能です。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Soroush Mehraban Vida Adeli Babak Taati

概要

最近のトランスフォーマーを基にした手法は、3次元ヒューマンポーズ推定において優れた性能を示しています。しかし、これらの手法は全体的な視点を持ち、すべての関節間のグローバルな関係性をエンコードすることにより、局所的な依存関係を正確に捉えることができません。本論文では、チャンネル数を2つの並列ストリームであるトランスフォーマーとGCNFormerで分割する新しいAttention-GCNFormer (AGFormer) ブロックを提案します。我々が提案するGCNFormerモジュールは、隣接する関節間の局所的な関係性を利用し、トランスフォーマー出力と補完的な新しい表現を生成します。これらの2つの表現を適応的に融合することで、AGFormerは基礎となる3次元構造をよりよく学習する能力を持っています。複数のAGFormerブロックを積み重ねることで、速度と精度のトレードオフに基づいて選択できる4種類の異なるバリアントを持つMotionAGFormerを提案します。我々はHuman3.6MおよびMPI-INF-3DHPという2つの主要なベンチマークデータセット上でモデルを評価しました。MotionAGFormer-Bは最新の結果を達成しており、それぞれP1エラーが38.4mmおよび16.2mmとなっています。特に注目すべきは、Human3.6Mデータセットにおける以前の最高峰モデルに比べてパラメータ数が4分の1であり、計算効率も3倍高いことです。コードとモデルはhttps://github.com/TaatiTeam/MotionAGFormer から入手可能です。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MotionAGFormer: 3次元人間ポーズ推定の向上に向けたTransformer-GCNFormerネットワーク | 記事 | HyperAI超神経