2ヶ月前

深層学習を用いた動画ベースの3次元人間姿勢推定における軌道空間分解

Jiahao Lin; Gim Hee Lee
深層学習を用いた動画ベースの3次元人間姿勢推定における軌道空間分解
要約

既存の3次元人間姿勢推定の深層学習アプローチは、ビデオに対して再帰型ニューラルネットワーク(RNN)または畳み込みニューラルネットワーク(CNN)に基づいています。しかし、RNNベースのフレームワークはシーケンスモデルが不良フレームに敏感であり、長いシーケンスではずれが生じるため、限られたフレーム数のシーケンスしか処理できません。一方、既存のCNNベースの一時的なフレームワークは、シーケンス内のすべての入力フレームを同時に処理することで感度とずれの問題に対処しようと試みていますが、現行の最先端CNNベースのフレームワークは順次的な入力から単一フレームの3次元姿勢を推定するのに限定されています。本論文では、行列分解を利用した順次的な3次元人間姿勢推定の深層学習ベースのフレームワークを提案します。当方針では、感度とずれの問題を避けるためにすべての入力フレームを同時に処理し、なおかつ入力シーケンス内の各フレームに対する3次元姿勢推定結果を出力します。より具体的には、すべてのフレームにおける3次元姿勢は、軌道基底行列と軌道係数行列に分解された運動行列として表現されます。軌道基底行列は特異値分解(SVD)や離散コサイン変換(DCT)などの行列分解手法により事前に計算され、順次的な3次元姿勢推定問題は深層ネットワークで軌道係数行列を回帰する訓練に還元されます。私たちは複数のベンチマークデータセットにおいて最先端性能を達成することにより、当方針の有効性を示しています。ソースコードは以下のURLから入手可能です: https://github.com/jiahaoLjh/trajectory-pose-3d.

深層学習を用いた動画ベースの3次元人間姿勢推定における軌道空間分解 | 最新論文 | HyperAI超神経