2ヶ月前

DECA: カプセルオートエンコーダを用いた深層視点変換対応の人間姿勢推定

Garau, Nicola ; Bisagno, Niccolò ; Bródka, Piotr ; Conci, Nicola
DECA: カプセルオートエンコーダを用いた深層視点変換対応の人間姿勢推定
要約

人間の姿勢推定(Human Pose Estimation: HPE)は、画像や動画から人間の関節の3次元位置を取得することを目指しています。本研究では、現在の3D HPE手法が視点同値性に欠けていることを示しました。つまり、訓練時に見られなかった視点を扱う際には失敗したり、性能が低下したりする傾向があります。深層学習手法はしばしばスケール不変性、平行移動不変性、または回転不変性を持つ操作(例:最大プーリング)に依存していますが、このような手続きの採用が必ずしも視点一般化を改善するわけではなく、むしろデータ依存度の高い手法へと導くことがあります。この問題に対処するために、我々は新しいカプセルオートエンコーダネットワークを提案します。これは高速な変分ベイズカプセルルーティングを特徴とするもので、DECA(Deep Capsule Autoencoder)と名付けられました。各関節をカプセルエンティティとしてモデル化し、ルーティングアルゴリズムと組み合わせることで、当手法は視点に関係なく特徴空間において関節の階層構造と幾何学的構造を保つことができます。視点同値性を達成することで、訓練時のネットワークのデータ依存度を大幅に削減し、未見の視点に対する一般化能力が向上します。実験検証では、既知および未知の視点(上からの視点や正面からの視点)における深度画像に対して他の方法よりも優れた結果を得ました。RGBドメインにおいても、挑戦的な視点転送タスクで最先端の結果を達成しており、上からの視点でのHPEに関する新たな枠組みも確立しています。コードはhttps://github.com/mmlab-cv/DECA で入手可能です。

DECA: カプセルオートエンコーダを用いた深層視点変換対応の人間姿勢推定 | 最新論文 | HyperAI超神経