7ヶ月前

コンピュータビジョン

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Adnane Boukhayma Rodrigo de Bem Philip H.S. Torr

概要

本研究では、RGB画像から3D手の形状と姿勢を予測する初のエンドツーエンドの深層学習ベースの手法を提示します。当該ネットワークは、深層畳み込みエンコーダと固定モデルベースのデコーダの連結で構成されています。入力画像が与えられ、オプションで独立したCNNから得られた2D関節検出結果も利用される場合、エンコーダは手と視点のパラメータセットを予測します。デコーダには2つのコンポーネントがあります：事前に計算されたアーティキュレーテッド・メッシュ・デフォーメーション手モデル（手パラメータから3Dメッシュを生成）と、視点パラメータによって制御される再投影モジュール（生成された手を画像ドメインに投影）。我々は、深層学習フレームワーク内で手モデルに符号化された形状と姿勢の先験知識を使用することで、標準的なベンチマークにおける画像からの3D姿勢予測において最先端の性能を達成し、幾何学的に有効かつ妥当な3D再構築を生成できることを示しています。さらに、限られたデータセットでの3D関節注釈による完全な教師あり学習と併せて、野生環境下の画像データセットでの2D関節注釈による弱い教師あり学習を使用して訓練することで、野生環境下の画像に対する3D形状と姿勢予測において良好な汎化性能が得られることも示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

コンピュータビジョン

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Adnane Boukhayma Rodrigo de Bem Philip H.S. Torr

概要

本研究では、RGB画像から3D手の形状と姿勢を予測する初のエンドツーエンドの深層学習ベースの手法を提示します。当該ネットワークは、深層畳み込みエンコーダと固定モデルベースのデコーダの連結で構成されています。入力画像が与えられ、オプションで独立したCNNから得られた2D関節検出結果も利用される場合、エンコーダは手と視点のパラメータセットを予測します。デコーダには2つのコンポーネントがあります：事前に計算されたアーティキュレーテッド・メッシュ・デフォーメーション手モデル（手パラメータから3Dメッシュを生成）と、視点パラメータによって制御される再投影モジュール（生成された手を画像ドメインに投影）。我々は、深層学習フレームワーク内で手モデルに符号化された形状と姿勢の先験知識を使用することで、標準的なベンチマークにおける画像からの3D姿勢予測において最先端の性能を達成し、幾何学的に有効かつ妥当な3D再構築を生成できることを示しています。さらに、限られたデータセットでの3D関節注釈による完全な教師あり学習と併せて、野生環境下の画像データセットでの2D関節注釈による弱い教師あり学習を使用して訓練することで、野生環境下の画像に対する3D形状と姿勢予測において良好な汎化性能が得られることも示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています