6ヶ月前

コンピュータビジョン

マルチモーダル

畳み込みニューラルネットワーク

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Lihui Qian Xintong Han Faqiang Wang Hongyu Liu Haoye Dong Zhiwen Li Huawei Wei Zhe Lin Cheng-Bin Jin

概要

本稿では、単一のモノクロ画像を入力として、コンシューマー用CPU上でリアルタイム性能を実現する新しい人体メッシュおよびモーションキャプチャ手法「XFormer」を提案する。提案するネットワークアーキテクチャは、2次元キーポイントから3次元人体メッシュ頂点を推定するキーポイントブランチと、RGB画像特徴から直接予測を行う画像ブランチの2つのブランチから構成されている。本手法の核となるのは、2次元キーポイント座標と画像の空間特徴の間のアテンションをモデル化することで、これらの2つのブランチ間で情報が双方向に伝達可能な「クロスモーダルトランスフォーマーブロック」である。本アーキテクチャは巧妙に設計されており、2次元/3次元ラベル付き画像、3次元擬似ラベル付き画像、および画像を伴わないモーションキャプチャデータセットなど、多様なデータセット上で学習が可能である。これにより、システムの精度と汎化能力が顕著に向上する。軽量なバックボーン（MobileNetV3）を採用した本手法は、単一CPUコアでも30fps以上という高速な処理を実現しつつ、競争力のある精度を維持している。さらに、HRNetをバックボーンとして用いることで、Human3.6Mおよび3DPWデータセットにおいて、最先端の性能を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

マルチモーダル

畳み込みニューラルネットワーク

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Lihui Qian Xintong Han Faqiang Wang Hongyu Liu Haoye Dong Zhiwen Li Huawei Wei Zhe Lin Cheng-Bin Jin

概要

本稿では、単一のモノクロ画像を入力として、コンシューマー用CPU上でリアルタイム性能を実現する新しい人体メッシュおよびモーションキャプチャ手法「XFormer」を提案する。提案するネットワークアーキテクチャは、2次元キーポイントから3次元人体メッシュ頂点を推定するキーポイントブランチと、RGB画像特徴から直接予測を行う画像ブランチの2つのブランチから構成されている。本手法の核となるのは、2次元キーポイント座標と画像の空間特徴の間のアテンションをモデル化することで、これらの2つのブランチ間で情報が双方向に伝達可能な「クロスモーダルトランスフォーマーブロック」である。本アーキテクチャは巧妙に設計されており、2次元/3次元ラベル付き画像、3次元擬似ラベル付き画像、および画像を伴わないモーションキャプチャデータセットなど、多様なデータセット上で学習が可能である。これにより、システムの精度と汎化能力が顕著に向上する。軽量なバックボーン（MobileNetV3）を採用した本手法は、単一CPUコアでも30fps以上という高速な処理を実現しつつ、競争力のある精度を維持している。さらに、HRNetをバックボーンとして用いることで、Human3.6Mおよび3DPWデータセットにおいて、最先端の性能を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

XFormer：高速かつ高精度なモノクローラル3Dボディキャプチャ | 記事 | HyperAI超神経