HyperAIHyperAI

Command Palette

Search for a command to run...

深層3次元手の姿勢推定のための良い実践法へ向けて

Guo Hengkai Wang Guijin Chen Xinghao Zhang Cairong

概要

単一深度画像からの3次元手のポーズ推定は、人間-コンピュータインタラクションにおいて重要な課題でありながらも、依然として困難な問題である。近年、高度な設計を施した深層畳み込みネットワーク(ConvNet)がこの問題の解決に用いられているが、従来のランダムフォレストに基づく手法に対する性能向上は明確ではない。本研究では、既存の優れた実践手法を活用し、手のポーズ推定性能を向上させるため、直接3次元座標回帰を実現するツリー構造型領域アンサンブルネットワーク(Tree-structured Region Ensemble Network, REN)を提案する。本手法は、ConvNetの最終畳み込み層出力を複数のグリッド領域に分割し、各領域に対して独立した全結合(FC)回帰器を適用する。その後、これらの出力を別のFC層により統合することで、手の関節位置を推定する。データ拡張やスムーズなL1L_1L1損失関数といった複数の訓練戦略を活用することで、提案手法RENはConvNetの性能を顕著に向上させ、手の関節の局所化精度を大幅に改善できる。実験の結果、我々の手法は3つの公開手のポーズデータセットにおいて、最先端のアルゴリズムと比較して最高の性能を達成した。さらに、指先検出および人体ポーズ推定のタスクにおいても本手法を検証したところ、いずれにおいても最先端の精度を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています